• Nenhum resultado encontrado

Bruno César Santos Rodrigues. Estimadores para o alcance de uma cadeia de Markov: um estudo comparativo

N/A
N/A
Protected

Academic year: 2021

Share "Bruno César Santos Rodrigues. Estimadores para o alcance de uma cadeia de Markov: um estudo comparativo"

Copied!
59
0
0

Texto

(1)

Bruno C´

esar Santos Rodrigues

Estimadores para o alcance de uma cadeia

de Markov: um estudo comparativo

Niter´oi - RJ, Brasil 17 de julho de 2018

(2)

Bruno C´

esar Santos Rodrigues

Estimadores para o alcance de uma

cadeia de Markov: um estudo

comparativo

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Douglas Rodrigues Pinto

Coorientador: Prof. Hugo Henrique Kegler dos Santos

Niter´oi - RJ, Brasil 17 de julho de 2018

(3)

Universidade Federal Fluminense

Bruno C´

esar Santos Rodrigues

Estimadores para o alcance de uma cadeia

de Markov: um estudo comparativo

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Esti-madores para o alcance de uma cadeia de Markov: um estudo comparativo”, defendida por Bruno C´esar Santos Rodrigues em 17 de julho de 2018, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Douglas Rodrigues Pinto Departamento de Estat´ıstica – UFF

Profa. Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF

(4)

comparativo / Bruno César Santos Rodrigues. - Niterói, RJ: [s.n.], 2018.

58f.

Orientador: Prof. Dr. Douglas Rodrigues Pinto Coorientador: Prof. Dr. Hugo Henrique Kegler dos Santos TCC ( Graduação de Bacharelado em Estatística) – Universidade

Federal Fluminense, 2018.

1. Cadeia de Markov . 2. Algoritmo contexto. I. Título. CDD. 519.542

(5)

Resumo

Neste trabalho abordamos as cadeias estoc´asticas de ordem finita em um alfabeto finito, estando interessados no quanto do presente ´e influenciado pelo passado. Obser-vamos uma amostra implementada com programa na linguagem R (www.r-project.org), a fim de estimar as probabilidades de transi¸c˜ao de uma cadeia de Markov de alcance k, com k fixado. Em seguida, estudamos os estimadores de alcance k de um processo de Markov com probabilidade de transi¸c˜ao e alcance desconhecidos. Utilizamos o crit´erio de informa¸c˜ao Bayesiano(BIC), tamb´em conhecido como Crit´erio de Schwarz, algoritmo contexto e o crit´erio de determina¸c˜ao eficiente(EDC). Por fim, comparamos a precis˜ao de cada m´etodo quando submetidos a amostras geradas computacionalmente.

Palavras-chaves: Cadeia de Markov, algoritmo contexto, crit´erio de informa¸c˜ao bayesiano e crit´erio de determina¸c˜ao eficiente.

(6)

Dedico este trabalho primeiramente `a Deus, por sempre estar cuidando, dando for¸ca, sabedoria e discernimento em toda esta jornada, aos meus pais L´ucia Maria e Rubem Xavier que, com todo carinho, nunca mediram esfor¸cos para que eu chegasse at´e aqui, a minha irm˜a Beatriz Rodrigues por sempre estar presente me ajudando de todas as formas, ao meu namorado amado e melhor amigo Gabriel Engel, um exemplo de perseve-ran¸ca e companheirismo e a minha grande amiga irm˜a Carolina Miranda, pelas trocas de conhecimento, experiˆencias de vida e muitas risadas.

(7)

Agradecimentos

Ao meu orientador e prof. Douglas Rodrigues, por todo o conhecimento passado com muita clareza, pela paciˆencia e dedica¸c˜ao ao estudo dirigido para a finaliza¸c˜ao desse projeto.

Agrade¸co ao meu co-orientador e prof. Hugo Henrique Kegler dos Santos por toda ajuda relacionada na implementa¸c˜ao das rotinas computacionais.

(8)

Lista de Tabelas

1 Introdu¸c˜ao p. 10

2 Objetivos p. 12

3 Materiais e M´etodos p. 13

3.1 Defini¸c˜oes . . . p. 13 3.2 Probabilidade de transi¸c˜ao em m´ultiplos passos . . . p. 15 3.3 Cadeias de Markov com dois estados . . . p. 18 3.4 Classifica¸c˜ao de estados em cadeias de Markov . . . p. 22 3.5 Estados recorrentes e transientes . . . p. 22 3.6 Comportamento limite . . . p. 24 3.7 Distribui¸c˜ao estacion´aria . . . p. 27 3.8 Alcance da Cadeia de Markov . . . p. 29 3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k p. 31 3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov . . . p. 35 3.10.1 Crit´erio de informa¸c˜ao Bayesiano (BIC) . . . p. 35 3.10.2 Algoritmo contexto . . . p. 39 3.10.3 Crit´erio de determina¸c˜ao eficiente (EDC) . . . p. 41

4 An´alise dos Resultados p. 46

(9)

Referˆencias p. 49 5.1 Anexo A- C´odigo fonte dos estimadores . . . p. 50 5.2 Anexo B- C´odigo fonte do estimador de BIC . . . p. 51 5.3 Anexo C- C´odigo fonte do estimador de Algoritmo Contexto . . . p. 53 5.4 Anexo D- C´odigo fonte do estimador de EDC . . . p. 56

(10)

1 Probabilidade de transi¸c˜ao Pn(b|u) . . . p. 40

2 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =

0, 06 (%). . . p. 46 3 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =

0, 03 (%). . . p. 47 4 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =

0, 015 (%). . . p. 47 5 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =

(11)

10

1

Introdu¸

ao

Saber o quanto do passado pode nos trazer informa¸c˜oes sobre o presente ´e uma das motiva¸c˜oes deste trabalho. Esse tipo de informa¸c˜ao ´e de suma importˆancia no ˆambito industrial, comercial, biol´ogico e financeiro, bem como em fenˆomenos naturais, pois h´a um alto grau de incerteza. Portanto, mesmo que se conhe¸ca a condi¸c˜ao inicial, o processo pode evoluir de diferentes formas. Determinar um modelo probabil´ıstico para compre-ens˜ao do comportamento desses sistemas ajuda na tomada de decis˜oes, recorre-se ao processos estoc´asticos como uma forma de estudar estes fenˆomenos, aproveitando algu-mas caracter´ısticas de regularidade que eles apresentam para serem descritos por modelos probabil´ısticos.

D´a-se o nome de cadeia de Markov a um fenˆomeno que possa ser classificado em espa¸co de estados N, cuja probabilidade de transi¸c˜ao entre tais estados, num intervalo de tempo tamb´em discreto, dependa apenas do estado corrente e do estado seguinte. A sequˆencia de estados seguindo este processo d´a-se o nome de cadeia de Markov [1]. Mais generica-mente, seguindo Kac[2] e Nelson[3], qualquer tipo de evolu¸c˜ao temporal (determin´ıstica ou essencialmente probabil´ıstica) que seja analis´avel em termos de probabilidade pode ser chamada de processo estoc´astico.

Na primeira se¸c˜ao definimos o conceito de cadeia de Markov em tempo discreto, denotamos a probabilidade de transi¸c˜ao via matriz e diagrama. Na Se¸c˜ao seguinte, re-tomamos exemplos anteriores a fim de definir a probabilidade de transi¸c˜ao em m + n passos utilizando a equa¸c˜ao de Champman-Kolmogorov. Na Se¸c˜ao 3.3 estudamos algu-mas particularidades quando o espa¸co amostral Ω possui apenas 2 estados e calculamos a probabilidade inicial. Na Se¸c˜ao 3.4 e 3.5 classificamos os estados em recorrente e tran-siente e utilizamos de exemplos para melhor compreens˜ao. Na Se¸c˜ao 3.6 e 3.7 estudamos comportamento limite, definimos o conceito de cadeia erg´otica, aperi´odica e verificamos o comportamento limite atrav´es da distribui¸c˜ao de π. Nas se¸c˜oes seguintes, estudamos como estimar a matriz de probabilidade com k assumindo valores |A| = 2 e |A| assumindo valores maiores que 2. Por fim, definimos o crit´erio de informa¸c˜ao Bayesiano, algoritmo

(12)

contexto e o crit´erio de determina¸c˜ao eficiente, onde estudamos via simula¸c˜ao a eficiˆencia dos estimadores de alcance da cadeia.

(13)

12

2

Objetivos

O trabalho tem como objetivos:

• Estudar processos estoc´asticos cujas probabilidades de transi¸c˜ao dependem de uma por¸c˜ao de tamanho fixo do passado;

• Construir algoritmo para a simula¸c˜ao desses processos;

• Estudar os estimadores para as probabilidades de transi¸c˜ao de uma cadeia de Markov de oredem k;

• Estudar os estimadores do alcance de uma cadeia de Markov de alcance k;

• Realizar a implementa¸c˜ao computacional dos estimadores BIC e o Algoritmo Con-texto;

• Realizar um estudo comparativo entre os estimadores BIC, Algoritmo Contexto e o Crit´erio de Determina¸c˜ao Eficiente a partir de uma amostra gerada por uma cadeia de Markov de alcance k.

(14)

3

Materiais e M´

etodos

3.1

Defini¸

oes

Considere um sistema que pode possuir qualquer n´umero finito ou infinito de estados. Denotamos como Ω esse conjunto de estados e assumimos nesse trabalho que ele ´e um subconjunto dos inteiros. O conjunto Ω ´e chamado de espa¸co de estado do processo.. Neste trabalho observamos os momentos discretos de tempo n = 1, 2, ..., e denotamos Xn

como vari´aveis aleat´orias que definem o estado do processo no momento n.

O modelo mais simples poss´ıvel seria uma estrutura de vari´aveis aleat´orias indepen-dentes, isto ´e, um modelo em que a probabilidade da vari´avel aleat´oria Xn assuma um

determinado valor xn de Ω n˜ao depende dos valores assumidos por X1, ..., Xn−1. Ou seja,

P (Xn = xn|Xn−1 = xn−1, ..., X1 = x1, X0 = x0) = P (Xn= xn). (3.1)

Entretanto, em diversos problemas, os estados passados tem influˆencia nos estados futuros. Particularmente, podemos considerar o caso em que a probabilidade de uma vari´avel aleat´oria Xn assumir um determinado valor dependa exclusivamente do estado

imediatamente anterior, isto ´e,

P (Xn = xn|Xn−1 = xn−1, ..., X1 = x1, X0 = x0) = P (Xn= xn|Xn−1= xn−1). (3.2)

Essa propriedade ´e chamada de propriedade de Markov e os sistemas que tem essa propriedade s˜ao chamados de cadeias de Markov.

Para cada n e dos n´umeros x0, ..., xn+1, cada um em Ω ⊂ Z, as probabilidades

con-dicionais P (Xn+1 = i|Xn = j) s˜ao chamadas de probabilidade de transi¸c˜ao da cadeia e

denotada por p(i, j). As probabilidades de transi¸c˜ao s˜ao dispostas numa matriz P deno-minada matriz de transi¸c˜ao dada por

(15)

3.1 Defini¸c˜oes 14 P =           p(0, 0) p(0, 1) p(0, 2) · · · p(0, n) p(1, 0) p(1, 1) p(1, 2) · · · p(1, n) p(2, 0) p(2, 1) p(2, 2) · · · p(2, n) .. . ... ... . .. ... p(n, 0) p(n, 1) p(n, 2) · · · p(n, n)           .

Neste trabalho abordamos as cadeias de Markov que tenham probabilidades de transi¸c˜ao estacion´arias, isto ´e, aquelas que P (Xn+1 = xn+1|Xn = xn) independem de n. Quando

falarmos que {Xn}n>0 forma uma cadeia de Markov, queremos dizer que essas vari´aveis

aleat´orias satisfazem as propriedades de Markov e que tem probabilidade de transi¸c˜ao estacion´arias.

Exemplo 3.1.1. Ru´ına do jogador.

Suponha um jogo em que, o jogador ganhe 1 real com probabilidade p = 0, 3, ou perca 1 real com probabilidade 1 − p = 0, 7, a cada rodada de modo independente, at´e que sua fortuna seja 0 ou N reais, ao atingir um desses valores ele para de jogar. Seja Xn = i com

0 < i < N a quantidade de dinheiro acumulada em n jogadas. Note que, conhecendo seu estado atual, qualquer outra informa¸c˜ao sobre o passado ´e irrelevante para a previs˜ao do pr´oximo estado Xn+1. Ou seja, para i0, ..., in−1, i, j:

P (Xn+1 = j|Xn = i, Xn−1= ii−1, ...X0 = i0) = P (Xn+1= j|Xn= i).

Para aumentar sua riqueza, dado que o jogador possui Xn= i no momento Xn+1 tem

que possuir i + 1 reais. Veja a seguir o comportamento dos estados.

P (Xn+1 = j|Xn = i) = p(i, j) =

(

0, 3 se j = i + 1 0, 7 se j = i − 1. Para o caso N=4, a matriz de transi¸c˜ao ´e dada por:

(16)

0 1 2 3 4 P = 0 1 2 3 4          1 0 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0 1          ,

Outra forma de representar o processo ´e atrav´es de diagrama, como

0 1,0 99 1 0,7 hh 0,3 (( 2 0,7 hh 0,3 (( 3 0,7 hh 0,3 (( 4ee 1,0.

Exemplo 3.1.2. Cadeia meteorol´ogica.

Seja Xn o clima em uma determinada cidade no dia n, sendo considerados trˆes

es-tados: nevado=1, nublado=2 e ensolarado=3. O clima certamente n˜ao ´e uma cadeia de Markov, pois, por exemplo, se dois dias anteriores eram ensolarados, ent˜ao ´e mais prov´avel que haja uma condi¸c˜ao atmosf´erica especial, como uma ´area de alta press˜ao localizada na regi˜ao, que favorece a luz do sol. Desta forma, ter´ıamos uma maior probabilidade de um terceiro dia ensolarado. Mesmo que o tempo n˜ao seja exatamente uma cadeia de Markov, podemos propor um modelo Markoviano para ele, como por exemplo considerando a se-guinte matriz de transi¸c˜ao para o processo

1 2 3 P = 1 2 3     0,2 0,8 0 0,3 0,4 0,3 0,2 0,5 0,3     .

Neste exemplo, a probabilidade do tempo estar ensolarado (estado 3), sabendo que no dia anterior esteve nublado (estado 2) ´e P (X2 = 3|X1 = 2) = p(2, 3) = 0, 3.

3.2

Probabilidade de transi¸

ao em m´

ultiplos passos

At´e agora, vimos a probabilidade de transi¸c˜ao de sair do estado i para o estado j em apenas um passo p(i, j) = P (Xn+1 = j|Xn = i). Nesta se¸c˜ao estudamos a probabilidade

(17)

3.2 Probabilidade de transi¸c˜ao em m´ultiplos passos 16

pm(i, j) = P (Xn+m = j|Xn = i). (3.3)

No exemplo a seguir retomamos a situa¸c˜ao do Exemplo 3.1.2.

Exemplo 3.2.1. Considere que hoje seja sexta-feira e o est´a ensolarado (estado 3). Qual ´e a probabilidade de s´abado estar nublado (estado 2) e no domingo nevando (estado 1)?

Pela propriedade da cadeia de Markov, sabemos que a probabilidade de que iniciando no estado 3, passar para o estado 2 e ent˜ao para o estado 1 ´e:

P (X2 = 1, X1 = 2|X0 = 3) = P (X2 = 1, X1 = 2, X0 = 3) P (X0 = 3) = P (X1 = 2, X0 = 3)P (X2 = 1|X1 = 2, X0 = 3) P (X0 = 3) = P (X1 = 2, X0 = 3) · P (X2 = 1|X1 = 2) P (X0 = 3) = P (X2 = 1|X1 = 2) · P (X1 = 2|X0 = 3) = p(2, 1) · p(3, 2)

Pela propriedade de Markov (3.2) a express˜ao ´e:

P (X2 = 1|X1 = 2) · P (X1 = 2|X0 = 3) = p(3, 2)p(2, 1) = 0, 5 · 0, 3 = 0, 15.

Exemplo 3.2.2. Sabendo que hoje ´e segunda feira e o dia est´a nevando, qual a probabi-lidade de quarta feira o tempo estar nublado?

P (X2 = 2|X0 = 1) = = P (∪3k=1[X2 = 2, X1 = k]|X0 = 1) = 3 X k=1 P (X2 = 2, X1 = k|X0 = 1) = 3 X k=1 p(1, k).p(k, 2) = p(1, 1)p(1, 2) + p(1, 2)p(2, 2) + p(1, 3)p(3, 2) = 0, 2 · 0, 8 + 0, 8 · 0, 4 + 0 · 0, 5 = 0, 48.

(18)

P (X2 = j|X0 = i) = 3

X

k=1

p(i, k)p(k, j).

A probabilidade de transi¸c˜ao de iniciar no estado 1 e chegar ao estado 2 em apenas 2 passos ´e dada pela nota¸c˜ao p2(1, 2). A matriz p nos fornece esse valor quando a (i, j)-´esima da matriz p ´e multiplicada por ela mesma, ou seja, a segunda potˆencia da matriz P.

Teorema 3.2.1. Equa¸c˜ao Chapman-Kolmogorov

Esta equa¸c˜ao nos fornece um m´etodo de calcular as probabilidades de trans¸c˜ao em m + n passos:

Pm+n(i, j) = X k

pm(i, k)pn(k, j).

Ou seja, o processo pode ser dividido em duas partes, saindo de i para k em m passos e de k para o estado j em n passos.

Demonstra¸c˜ao. P (Xm+n= j|X0 = i) =

X

k

P (Xm+n = j, Xm = k|X0 = i).

Usando a defini¸c˜ao de probabilidade condicional temos que:

P (Xm+n = j, Xm = k|X0 = i) = P (Xm+n = j, Xm = k, X0 = i) P (X0 = i) = P (Xm+n = j, Xm = k, X0 = i) P (Xm = k, X0 = i) P (Xm = k, X0 = i) P (X0 = i) = P (Xm+n = j|Xm = k, X0 = i)P (Xm = k|X0 = i) = P (Xm+n=j|Xm=k)P (Xm = k|X0 = i) = pm(j, k)pn(k, j).

Exemplo 3.2.3. Cadeia meteorol´ogica.

Para calcular, por exemplo p2(3, 1), a probabilidade de iniciar no estado 3 e passar para o estado 1 em 2 passos. Para efetuar esse c´alculo multiplica-se a terceira linha da matriz p pela primeira coluna da mesma.

(19)

3.3 Cadeias de Markov com dois estados 18 p2(3, 1) =X k p(3, k)p(k, 1), em outras palavras     . . . . . . 0, 2 0, 5 0, 3         0, 2 . . 0, 3 . . 0, 2 . .     =     . . . . . . 0, 25 . .    

Generalizando, temos o seguinte:

Teorema 3.2.2. O passo m da probabilidade de transi¸c˜ao P (Xn+1 = j|Xn = i) ´e a

m-´esima potˆencia da matriz de transi¸c˜ao p.

3.3

Cadeias de Markov com dois estados

Nesta se¸c˜ao, vamos apresentar algumas particularidades do caso onde nosso Ω possui apenas dois estados.

Para um exemplo da cadeia de Markov com dois estados, considere uma m´aquina que, no in´ıcio de qualquer dia esteja quebrada ou em condi¸c˜ao operacional. Assume-se que, se a m´aquina est´a quebrada no dia n, a probabilidade dela ser reparada com sucesso e em condi¸c˜oes de funcionamento no in´ıcio do (n+1)-´esimo dia ´e igual a p. Considere tamb´em que se a m´aquina est´a no estado de funcionamento no in´ıcio do dia n, a probabilidade dela ter uma falha fazendo com que a m´aquina esteja quebrada no in´ıcio do (n+1)-´esimo dia ´e igual a q. O estado 0 corresponde a m´aquina estar quebrada e o estado 1 corresponde a m´aquina estar em condi¸c˜oes de funcionamento. Denotamos π0(0) a probabilidade de que

m´aquina esteja inicialmente quebrada e π0(1) esteja em funcionamento.

Seja Xn a vari´avel aleat´oria que representa o estado da m´aquina no tempo n. De

acordo com as premissas do problema, temos ent˜ao,

P (X0 = 0) = π0(0),

P (Xn+1 = 1|Xn = 0) = p,

(20)

Uma vez que s´o existem dois estados, 0 ou 1, temos que:

π0(1) = P (X0 = 1) = 1 − π0(0),

P (Xn+1 = 0|Xn= 0) = 1 − p,

P (Xn+1 = 1|Xn= 1) = 1 − q.

A partir dessas informa¸c˜oes, podemos facilmente calcular P (Xn = 0) e P (Xn = 1).

Observamos que P (Xn+1 = 0) = P (Xn= 0 e Xn+1 = 0) + P (Xn= 1 e Xn+1 = 0) = P (Xn= 0)P (Xn+1 = 0|Xn= 0) + P (Xn= 1)P (Xn+1 = 0|Xn = 1) = P (Xn= 0)(1 − p) + qP (Xn = 1) = P (Xn= 0)(1 − p) + q(1 − P (Xn= 0)) = P (Xn= 0)(1 − p) + q − qP (Xn = 0) = P (Xn= 0)(1 − p − q) + q.

Como P (X0 = 0) = π0(0), ent˜ao,

P (X1 = 0) = (1 − p − q)π0(0) + q,

e

P (X2 = 0) = (1 − p − q)P (X1 = 0) + q

= (1 − p − q)[(1 − p − q)π0(0) + q]q

= (1 − p − q)2π0(0) + q[1 + (1 − p − q)].

Generalizando para um n qualquer.

P (Xn= 0) = (1 − p − q)nπ0(0) + q n−1 X j=0 (1 − p − q)j. (3.4) Observamos 2 casos.

(21)

3.3 Cadeias de Markov com dois estados 20

P (Xn = 0) = π0(0) e P (Xn= 1) = π0(1).

Caso 2: Quando p + q > 0, a f´ormula resulta em uma soma de progress˜ao geom´etrica finita. n−1 X j=0 (1 − p − q)j = 1 − (1 − p − q) n p + q . (3.5)

Concluimos no caso 2 que:

P (Xn = 0) = (1 − p − q)nπ0(0) + q n−1 X j=0 (1 − p − q)j = (1 − p − q)nπ0(0) + q  1 − (1 − p − q)n p + q  = q p + q + (1 − p − q) n  π0(0) − q p + q  , (3.6) e, al´em disso, P (Xn= 1) = (1 − p − q)nπ0(1) + q n−1 X j=0 (1 − p − q)j = (1 − p − q)nπ0(1) + q  1 − (1 − p − q)n p + q  = q p + q + (1 − p − q) n  π0(1) − q p + q  . (3.7)

Supondo que p e q s˜ao diferentes de 0 e 1, ent˜ao 0 < p + q < 2, assim, temos que |1 − p − q| < 1. Quando n → ∞ em (3.6) e (3.7) concluimos: lim n→∞P (Xn= 0) = limn→∞ q p + q + (1 − p − q) n  π0(0) − q p + q  = q p + q (3.8) e lim n→∞P (Xn= 1) = limn→∞ p p + q + (1 − p − q) n  π0(0) − p p + q  = p p + q. (3.9)

(22)

Vimos em (3.8) e (3.9) para n > 0, P (X0 = 0) = q p + q e P (X0 = 1) = p p + q, ou seja, para n > 0 P (Xn= 0) = q p + q e P (Xn = 1) = p p + q.

Supondo que a propriedade de Markov ´e v´alida, n ´e igual a 2 e x0, x1 e x2 ∈ {0, 1}.

Ent˜ao:

P (X0 = x0, X1 = x1, X2 = x2) = P (X0 = x0, X1 = x1)P (X2 = x2|X0 = x0, X1 = x1)

= P (X0 = x0)P (X1 = x1|X0 = x0)P (X2 = x2|X0 = x0, X1 = x1).

Como P (X0 = x0) e P (X1 = x1|X0 = x0) s˜ao determinados por π0(0), p, q e pela

propriedade de Markov, temos P (X2 = x2|X0 = x0, X1 = x1) = P (X2 = x2|X1 = x1) =

p(x1, x2). P (X0 = 0, X1 = 0, X2 = 0) = p(0)p(0, 0)p(0, 0) = π0(0)(1 − p)2; P (X0 = 0, X1 = 0, X2 = 1) = p(0))p(0, 0)p(1, 0) = π0(0)(1 − p)p; P (X0 = 0, X1 = 1, X2 = 0) = p(0)p(1, 0)p(0, 1) = π0(0)pq; P (X0 = 0, X1 = 1, X2 = 1) = p(0)p(1, 0)p(1, 1) = π0(0)p(1 − p); P (X0 = 1, X1 = 0, X2 = 0) = p(1)p(0, 1)p(0, 0) = (1 − π0(0))q(1 − p); P (X0 = 1, X1 = 0, X2 = 1) = p(1)p(0, 1)p(1, = 0) = (1 − π0(0))qp; P (X0 = 1, X1 = 1, X2 = 0) = p(1)p(1, 1)p(0, 1) = (1 − π0(0))(1 − q)q; P (X0 = 1, X1 = 1, X2 = 1) = p(1)p(1, 1)p(1, 1) = (1 − π0(0))(1 − q)2.

Podemos resumir as equa¸c˜oes acima em uma tabela. x0 x1 x2 P (X0 = x0, X1 = x1, X2 = x2) 0 0 1 π0(0)(1 − p)2 0 0 1 π0(0)(1 − p)p 0 1 0 π0(0)pq 0 1 1 π0(0)p(1 − p) 1 0 0 (1 − π0(0))q(1 − p) 1 0 1 (1 − π0(0))qp 1 1 0 (1 − π0(0))(1 − q)q 1 1 1 (1 − π0(0))(1 − q)2

(23)

3.4 Classifica¸c˜ao de estados em cadeias de Markov 22

3.4

Classifica¸

ao de estados em cadeias de Markov

Seja Ty = min{n > 0 | Xn = y} o tempo de primeiro retorno para y .

Um estado y ´e dito ser alcan¸c´avel a partir de um estado x se ρxy = Px(Ty < ∞) > 0.

Ent˜ao se ρxy > 0, dizemos que, x se comunica com y, e denotamos por x → y.

Lema 3.4.1. Se x → y e y → z, ent˜ao x → z.

Demonstra¸c˜ao. Dado trˆes estados x, y, e z. Se x → y, por defini¸c˜ao temos que Px(Ty <

∞) > 0, e se y → z temos que Py(Tz < ∞) > 0. Seja k = min{k | pk(x, y) > 0} o menor

n´umero de passos poss´ıvel iniciando no estado x at´e o estado y, e w = min{w | pw(y, z) >

0} o n´umero de passos iniciando do estado y at´e o estado z. Para provar que x → z, vamos mostrar que Px(Tz < ∞) > 0. De fato

Px(Tz < ∞) = ∞ X i=1 Px(Tz = i) ≥ Px(Tz = k + w) = X j∈Ω pk(x, j)pw(j, z) ≥ pk(x, y)pw(y, z) > 0,

logo A Px(Tz < ∞) > 0, conclu´ımos que x → z .

3.5

Estados recorrentes e transientes

Um estado ´e transiente se, entrando neste estado, o processo pode nunca retornar. Portanto, x ´e transiente se e somente se, existe um estado y (y 6= x) que ´e alcan¸c´avel a partir de x, mas n˜ao vice-versa, isto ´e, o estado x n˜ao ´e alcan¸c´avel a partir do estado y. Assim, se x ´e transiente, h´a uma probabilidade positiva que o processo ir´a mover-se para o estado y e nunca mais retornar para o estado x. Consequentemente, um estado transiente ser´a visitado um n´umero finito de vezes.

Px(Tx< ∞) < 1

Um estado ´e dito recorrente se entrando nesse estado, o processo definitivamente ir´a retornar. Portanto, um estado ´e recorrente, se e somente se, n˜ao ´e transiente. Uma vez que ele ´e recorrente, ser´a ”revisitado”ap´os cada visita (n˜ao necessariamente no pr´oximo passo do processo).

(24)

Lema 3.5.1. Se x ´e um estado recorrente e x → y, ent˜ao y ´e recorrente.

Demonstra¸c˜ao. Seja um estado u, tal que, y → u mas, u 9 y ou seja , estamos supondo que o estado y seja um estado transiente. Pelo Lema 1.4.1 vimos se, x → y e y → u , ent˜ao, x → u, como x ´e um estado recorente por defini¸c˜ao temos ρxx = 1, mas como a ρux < 1

ent˜ao ρxx < 1, ou seja, uma contradi¸c˜ao pois o estado x foi definido como um estado

recorrente. Assim provamos ent˜ao que o estado y tamb´em ´e um estado recorrente. Exemplo 3.5.1. Ru´ına do jogador. Considere N = 4

0 1 2 3 4 P = 0 1 2 3 4          1 0 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0 1         

Note que, como p(0, 0) = 1 e p(4, 4) = 1 os estados 0 e 4 s˜ao recorrentes e absorventes. Um estado ´e absorvente se p(y, y) = 1, ou seja, uma vez atingidos n˜ao ser´a poss´ıvel sair deles. J´a os estados 1, 2 e 3 s˜ao transientes, iniciando deles poder´a nunca retornar.

P (T1 = ∞|X0 = 1) ≥ p(1, 0) = 0, 7 > 0.

Igualmente acontece come¸cando do estado 2, ent˜ao,

P (T2 = ∞|X0 = 2) ≥ p(2, 1)p(1, 0) = 0, 7 · 0, 7 = 0, 49 > 0.

E finalmente iniciando do estado 3, temos

(25)

3.6 Comportamento limite 24

Exemplo 3.5.2. Cadeia de sete estados.

Considere a matriz de transi¸c˜ao:

1 2 3 4 5 6 7 P = 1 2 3 4 5 6 7                0,2 0 0 0 0,8 0 0 0,3 0,1 0,4 0,2 0 0 0 0 0 0,1 0,9 0 0 0 0 0 0 0,8 0 0,2 0 0,7 0 0 0 0,3 0 0 0 0 0 0 0 0,6 0,4 0 0 0 1 0 0 0                1 → 5, 2 → 1, 2 → 3, 2 → 4, 3 → 4, 3 → 5, 4 → 6, 4 → 7, 5 → 1, 6 → 4, 6 → 7, 7 → 4. Um conjunto A ´e fechado se ´e impossivel sair, se i ∈ A e j /∈ A ent˜ao p(i,j)=0. No Exemplo 3.5.2, {1,5} e {4,6,7} s˜ao conjuntos fechados. Um conjunto B ´e chamado de fechado irredut´ıvel se i, j ∈ B, i se comunica com j. No Exemplo 3.5.2 os conjuntos {1,5} e {4,6,7} s˜ao conjuntos fechados e irredut´ıveis.

Teorema 3.5.1. Se o estado no espa¸co Ω ´e finito, ent˜ao Ω pode ser escrito como a uni˜ao dijunta T ∪ R1 ∪ ... ∪ Rk, onde T ´e um conjunto de estados transientes e Ri, 1 ≤ i ≤ k,

s˜ao conjuntos fechados irredut´ıveis de estados recorrentes.

Demonstra¸c˜ao. Seja T um conjunto de x tal que existe um y que x → y, mas y 9 x. Os estados em T s˜ao transientes pelo Teorema (3.5.1). Vamos mostrar que todos os estdos restantes Ω − T s˜ao recorrentes. Seja x ∈ Ω − T e Cx = {y|x → y}. Como x ∈ Ω − T pela

propriedade se, x → y, ent˜ao y → x. Para checar que Cx ´e um conjunto fechado note que

se y ∈ Cx e y → z, ent˜ao implica que x → z logo z ∈ Cx. Para testarmos irredutibilidade,

note que se y, z ∈ Cx, ent˜ao x ∈ Ω − T e implica que y → z. Se Cx ´e um conjunto fechado

e irredut´ıvel, todos estados em Cx s˜ao recorrentes.

3.6

Comportamento limite

Neste t´opico iremos abordar como o nosso processo se comporta ao longo do tempo, ou seja, o comportamento da probabilidade de transi¸c˜ao em n passos, para n grande,

(26)

lim

n→∞P n

(x, y) = lim

n→∞P (Xn = x|X0 = y).

Se esta probabilidade for independente do estado inicial, ela converge para um n´umero π(x) > 0 e ´e chamada de probabilidade estacion´aria. Ela pode ser calculada multiplicando-se a matriz P por ela mesmo at´e que n˜ao tenha modifica¸c˜ao nas probabilidade de estado. Se y ´e um estado transiente, ent˜ao Xnretornar´a para y finitas vezes e a probabilidade

de retorno depois de n passos vai para 0 quando n → ∞

pn(x, y) = Px(Xn= y) → 0 para algum estado inicial x.

Caso y seja um estado recorrente em uma cadeia de estados finitos, pn(x, y) conver-gir´a para um limite positivo.

Exemplo 3.6.1. Cadeia meteorol´ogica.

Considere a seguinte matriz de transi¸c˜ao:

P =     0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3    

Pelo diagrama a seguir fica mais f´acil verificar que todos os estados dessa matriz s˜ao recorrentes, ent˜ao quando n → ∞ ela convergir´a para um limite positivo.

0 0,2 99 0,8 (( 1 0,4  0,3 hh 0,3 (( 2 0,2 XX ee 0,3 0,5 hh .

Vamos calcular inicialmente P2, P4, P8, P16 e P32.

P2 =     0, 28 0, 48 0, 24 0, 24 0, 55 0, 21 0, 25 0, 51 0, 24     , P4 =     0, 2536 0, 5208 0, 2256 0, 2517 0, 5248 0, 2235 0, 2524 0, 5229 0, 2247     ,

(27)

3.6 Comportamento limite 26 P8 =     0, 2523398 0, 5233570 0, 2243033 0, 2523347 0, 5233686 0, 2242968 0, 2523369 0, 5233635 0, 2242997     , P16 =     0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991     , P32=     0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991     .

Note que P16= P32, ou seja, existe uma probabilidade limite que o processo depois de

um n´umero grande de passos estar´a no estado y, e esta probabilidade limite n˜ao depende do estado inicial.

Defini¸c˜ao 3.6.1. Seja x um estado recorrente. Ent˜ao x ´e recorrente positivo se, come¸cando no estado x, o tempo m´edio de retorno a x ´e finito. Um estado x ´e erg´odico se este es-tado ´e aperi´odico e recorrente positivo. Logo, uma cadeia erg´odica, todos os estados s˜ao erg´oticos.

Defini¸c˜ao 3.6.2. Um estado x tem per´ıodo d se:

Ix = mdc{n ≥ 1|pn(x, x) > 0} = d.

Para uma cadeia irredut´ıvel, o per´ıodo da cadeia ´e definido como o per´ıodo comum a todos os estados. A cadeia ´e chamada de aperi´odica se todos os estados possuem per´ıodo 1.

Defini¸c˜ao 3.6.3. .Dizemos que uma cadeia ´e erg´otica se ela ´e aperi´odica e recorrente positiva.

Lema 3.6.1. Se p(x, x) > 0, ent˜ao x tem per´ıodo 1.

Demonstra¸c˜ao. Se p(x, x) > 0, ent˜ao 1 ∈ Ix, ent˜ao o maior divisor comum deve ser 1.

(28)

Lema 3.6.5. Se x e y se comunicam x ↔ y, ent˜ao x e y tem o mesmo per´ıodo.

Demonstra¸c˜ao. Vamos supor que o per´ıodo de x seja c e o de y seja d < c. Seja k tal que pk(x, y) > 0 e seja m tal que pm(y, x) > 0. Ent˜ao

pk+m(x, x) ≥ pk(x, y).pm(y, x) > 0,

Pelo Lema (3.6.4) temos que k + m ∈ Ix. Com x tem per´ıodo c, k + m deve ser

m´ultiplo de c. Agora seja l um inteiro com pl(y, y) > 0. Ent˜ao

pk+l+m(x, x) ≥ pk(x, y)pl(y, y)pm(y, x) > 0,

k + l + m ∈ Ix, e k + l + m deve ser m´ultiplos de c. Uma vez que k + m ´e um m´ultiplo

de c, isso significa que l ´e um m´ultiplo de c. Uma vez que l ∈ Iy, mostramos que c ´e um

divisor de cada elemento de Iy, mas d < c ´e o maior divisor comum, ent˜ao temos uma

contradi¸c˜ao.

3.7

Distribui¸

ao estacion´

aria

Com a distribui¸c˜ao estacion´aria podemos verificar o comportamento limite atrav´es de uma distribui¸c˜ao de π = π0, π1, π2, ...πN onde πy > 0 ∀ y = 0, 1, 2, ..., N e

X

y

πy = 1 e

essa distribui¸c˜ao independe do estado inicial.

Seja uma cadeia de Markov (Xn)n∈N, supondo que ela ´e irredut´ıvel e erg´odica, temos:

1) O lim n→∞p n(x, y) existe e n˜ao depende de x. 2) π(y) = lim n→∞p n(x, y), y ∈ Ω.

O vetor π = (π0, π1, ..., πn) ´e solu¸c˜ao ´unica do sistema

  

 

π(y) = limn→∞pn(x, y), y ∈ Ω

X

y∈Ω

(29)

3.7 Distribui¸c˜ao estacion´aria 28

Exemplo 3.7.1. Cadeia meteorol´ogica.

Considere a seguinte matriz de transi¸c˜ao:

P =     0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3     . A equa¸c˜ao πp = π diz, π =  π1 π2 π3      0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3     . π1(0, 2) + π2(0, 3) + π3(0, 2) = π1 π1(0, 8) + π2(0, 4) + π3(, .5) = π2 0 + π2(0, 3) + π3(0, 3) = π3

Aqui n´os temos trˆes equa¸c˜oes e trˆes inc´ognitas e vamos adicionar uma quarta equa¸c˜ao: π1+ π2+ π3 = 1, ent˜ao uma das equa¸c˜oes ´e redundante.

Resolvendo as equa¸c˜oes temos:

π1 = 27 107 ∼= 0, 252336, π 2 = 168 321 ∼ = 0, 523364, π3 = 24 107 ∼ = 0, 224299.

Ent˜ao voltando ao nosso Exemplo (3.1.2), em que o estado 1 representa nevado, o estado 2 nublado e o estado 3 ensolarado, ao acharmos o comportamento limite dessa cadeia,

π = (0, 2523 0, 5234 0, 2243)

concluimos que a propor¸c˜ao que o tempo est´a nevado ´e de aproximadamente 0,252336, nublado ´e aproximadamente de 0,523364 e ensolarado ´e aproximadamente 0,224299.

(30)

3.8

Alcance da Cadeia de Markov

Vamos sempre assumir valores num alfabeto ’A’ finito, de onde escolheremos um valor e atribuiremos a X0, em seguida vamos selecionar um n´umero aleat´orio Un ∈ [0; 1], com

distribui¸c˜ao uniforme independente do passado.

Xn = f (Xn−1, Un) ∈ [0, 1], n ≥ 1.

Defini¸c˜ao 3.8.1. Uma cadeia de Markov ´e de alcance K se escolhermos valores para X−k, ..., X−1 para todo n ≥ 0 : Xn = f (Xn−1, Xn−2, ..., Xn−k; Un), onde (Un)n≥1 ´e uma

sequˆencia de vari´aveis aleat´orias i.i.d. com distribui¸c˜ao uniforme em [0; 1].

Exemplo 3.8.1. Seja a cadeia de Markov de alcance 1 : Xn = f (Xn−1, Un) com fun¸c˜ao

f : A × [0; 1] → A. Ent˜ao P (Xn= b|Xn−1= a) ´e dada por:

P (Xn= b|Xn−1= a) = P (f (Xn−1, Un) = b|Xn−1= a) = P (f (a, Un) = b|Xn−1= a)

= P (f (a, Un) = b) = p(a|u).

Exemplo 3.8.2. Perda de mem´oria. Neste exemplo vamos mostrar a perda de mem´oria do valor inicial da cadeia de Markov, supondo uma cadeia de alfabeto A = {0, 1} e K=1. Como os estados assumem os valores 0 ou 1, vamos usar a seguinte nota¸c˜ao:

(

Xn−1(0) , se X0 = 0

Xn−1(1) , se X0 = 1.

Uma simula¸c˜ao foi efetuada ao mesmo tempo com o par (Xn(0), Xn(1)).

Dada matriz de transi¸c˜ao abaixo, analisamos os poss´ıveis casos.

P = 0, 4 0, 6 0, 8 0, 2 ! Caso 1: (Xn−1(0) , Xn−1(1) )=(0,1) Xn−1 = 0 ,, Xn−1 = 1 22 00 0, 4 u 1 10, 6 1 0

(31)

3.8 Alcance da Cadeia de Markov 30        (Xn(0)= 0, Xn(1) = 0), se Un≤ 0, 4 (Xn(0)= 1, Xn(1) = 1), se 0, 4 < Un ≤ 0, 6 (Xn(0)= 1, Xn(1) = 0), se 0, 6 < Un ≤ 1. Caso 2: (Xn−1(0) , Xn−1(1) )=(0,0) Xn−1 = 0 ,, Xn−1 = 0 22 u 0 0 0, 4 1 10, 6 1 1        (Xn(0)= 0, Xn(1) = 0), se Un≤ 0, 4 (Xn(0)= 1, Xn(1) = 1), se 0, 4 < Un ≤ 0, 6 (Xn(0)= 1, Xn(1) = 1), se 0, 6 < Un ≤ 1.

Se Xn−1(0) = Xn−1(1) ent˜ao Xn(0) = Xn(1), ou seja, no momento em que os estados ficam

iguais as probabilidades se igualam tamb´em.

(0, 0)   (1, 0)  oo {{ (1, 1) OO II (0, 1) OO oo cc P (Xn(0) 6= X(1) n ) = P (U0 > 0, 6; U1 > 0, 6; ...Un> 0, 6) = = P (U0 > 0, 6)P (U1 > 0, 6)...P (Un > 0, 6) = 0, 4n = lim n→∞  4 10 n = 0

Portanto, P (Xn(0) 6= Xn(1)) = 0. Concluimos que a cadeia de Markov perde a mem´oria do

(32)

3.9

Estima¸

ao de m´

axima verossimilhan¸

ca para

ca-deias de Markov de alcance k

Nesta se¸c˜ao, fizemos inferˆencia estat´ıstica em cadeia de Markov, buscando encontrar um ˆp que maximiza a probabilidade de ocorrˆencia da amostra. Para isso utilizamos a estima¸c˜ao por m´axima verossimilhan¸ca. A fun¸c˜ao de verossimilhan¸ca ´e dada por

L(θ, x1, ..., xn) = p(x1; θ)p(x2; θ)....p(xn; θ) = n

Y

i=1

p(xi; θ),

que deve ser interpretada como a fun¸c˜ao de θ. O estimador de m´axima verossimilhan¸ca de θ ´e o valor que maximiza L(θ, x1, ..., xn)

No caso 1, K assume valores em A = {0, 1} e no caso 2 onde K assume valores em A > 2. Neste segundo caso utilizamos o m´etodo de multiplicadores de Lagrange.

caso 1: Seja (Xn)n=0,1,2,... uma cadeia de Markov com probabilidades de transi¸c˜ao

p = {p(a|u); a ∈ A, u ∈ Ak}, u = u

1.u2...uk.

Vamos usar a seguinte nota¸c˜ao: {Xn

−k = an−k} = {X−k = a−k, X−k+1 = a−k+1, ..., X0 = a0, X1 = a1, ..., Xn = an} e indicar

a matriz p como ´ındice de P:

Pp{X−kn = an−k} = P {X −1 −k = a −1 −k}P {X n 0 = a n 0|X −1 −k = a −1 −k} = P {X−k−1 = a−1−k}P {X0 = a0|X−k−1 = a −1 −k}P {X1n = an1|X−k+1= a−k+1} = P {X−k = a−k} n Y r=0 P {Xr = ar|Xr−kr−1 = ar−1r−k} = P {X−k = a−k} Y a∈A Y u∈Ak p(a|u)Nn(ua). Seja Nn(ua) = n X t=k+1

I{Xk−1t−1 = u} o n´umero de vezes que a sequˆencia u seguida de a

´e observada na amostra. Dada a amostra an −k e assumindo P {X −1 −k = a −1 −k} = 1 queremos encontrar ˆpn =

{p(a|u); a ∈ A, u ∈ Ak} que maximiza P

p{X−kn = an−k}, para isso vamos aplicar L(p),

(33)

3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k 32 Seja a matriz : p = α 1 − α 1 − β β ! e p =ˆ αˆ 1 − ˆα 1 − ˆβ βˆ ! . Aplicando L(Pp{X−kn = an−k}): log(P(α,β){X−kn = an−k}) = X a∈A X u∈Ak Nn(ua) log(p(a|u)).

Agora vamos derivar e igualar a zero:

∂ ∂α log(α, β) = Nn(ua) X b∈A Nn(ub) =⇒ ˆα = XNn(u0) b∈A Nn(ub) , ∂ ∂β log(α, β) = Nn(ua) X b∈A Nn(ub) =⇒ ˆβ = XNn(u1) b∈A Nn(ub) .

Para melhor entendimento, selecionamos a seguinte amostra com k=2 e A={0,1}.

X−2 = 0, X−1 = 0, X0 = 0, X1 = 0, X2 = 1, X3 = 0, X4 = 1, X5 = 1, X6 = 0, X7 = 0,

X8 = 0, X9 = 1, X10= 0.

Observa¸c˜ao: Quando falarmos que o alcance da cadeia ´e 2 ent˜ao, u ∈ A2 significa que: u ∈ {00,10,01,11}. Pp{X−210 = a10−2} = P {X −1 −2 = a −1 −2}P {X0 = x0|X−2−1 = a −1 −2}P {X110= x 10 1 |X 0 −2+1 = a0−2+1} = P {X−2−1 = a−1−2}Y a∈A Y u∈A2 p(a|u)Nn(ua). Seja: 0 1 0 1 ˆ p = 00 01 10 11        ˆ p(0|00) p(1|00)ˆ ˆ p(0|10) p(1|10)ˆ ˆ p(0|01) p(1|01)ˆ ˆ p(0|11) p(1|11)ˆ        =⇒ p =ˆ 00 01 10 11        ˆ α 1 − ˆα 1 − ˆβ βˆ ˆ γ 1 − ˆγ 1 − ˆθ θˆ       

(34)

Aplicando L(Pp{X−210 = a10−2}:

X

a∈A={0,1}

X

u∈A2

Nn(ua) log p(a|u) = N (000) log pn(0|00) + N (001) log pn(1|00)

+ N (010) log pn(0|01) + N (011) log pn(1|01)

+ N (100) log pn(0|10) + N (101) log pn(1|01)

+ N (110) log pn(0|11) + N (111) log pn(1|11)

= 3 log p(0|00) + 2 log p(1|00) + 2 log p(0|01) + 1 log p(1|01) + 1 log p(0|10) + 1 log p(1|10) + 1 log p(0|11) + 0 log p(1|11).

X

a∈A={0,1}

X

u∈A2

Nn(ua) log p(a|u) = 3 log(α) + 2 log(1 − α) + 1 log(1 − β) +

1 log(β) + 2 log(γ) + 1 log(1 − γ) + 1 log(θ) + 0 log(1 − θ) Derivando e igualando a zero:

∂ ∂αlog(α, β, γ, θ) = 3 ˆ α − 2 1 − ˆα = 0 =⇒ ˆα = 3 3 + 2 = 3 5 = 0, 6. ∂ ∂βlog(α, β, γ, θ) = 2 ˆ β − 1 1 − ˆβ = 0 =⇒ ˆβ = 1 1 + 1 = 1 2 = 0, 5. ∂ ∂γ log(α, β, γ, θ) = 1 ˆ γ − 1 1 − ˆγ = 0 =⇒ ˆγ = 2 2 + 1 = 2 3 ∼ = 0, 66. ∂ ∂θ log(α, β, γ, θ) = 0 ˆ θ − 1 1 − ˆθ = 0 =⇒ ˆθ = 0. ˆ p =        0, 60 0, 40 0, 50 0, 50 0, 66 0, 34 0 1       

(35)

3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k 34

Lagrange para encontrar extremos (m´aximos e m´ınimos) de uma fun¸c˜ao de uma ou mais vari´aveis com uma ou mais restri¸c˜oes.

Sejam as retri¸c˜oes:

0 ≤ p(a|u) ≤ 1, ∀ a e X u∈Ak p(a|u) = 1. Seja λ = (λu)u∈Ak ; λu ∈ R e F (λ, p) definido por : X u∈Ak {X a∈A

Nn(ua) log p(a|u) + λu[1 −

X

a∈A

p(a|u)]}.

Derivando F (λ, p) em rela¸c˜ao `a λu e igualando a zero:

∂ ∂λu F (λ, p) = 1 −X a∈A p(a|u) = 0 X a∈A p(a|u) = 1. (3.10)

Derivando em rela¸c˜ao `a p(a|u) a fun¸c˜ao F (λ, p):

∂ ∂p(a|u)F (λ, p) = Nn(ua) 1 p(a|u) − λu ˆ pn(a|u) = Nn(ua) λu . (3.11)

Pelas equa¸c˜oes 3.10 e 3.11, temos que:

X b∈A Nn(ub) λu = 1 X b∈A Nn(ub) = λu.

Logo, o estimador de m´axima verossimilhan¸ca ˆp = {ˆp(a|u); a ∈ A, u ∈ Ak} ser´a :

ˆ pn(a|u) = Nn(ua) X b∈A Nn(ub) .

(36)

3.10

etodo de sele¸

ao da ordem de uma cadeia de

Markov

J´a sabemos estimar uma matriz de probabilidade de transi¸c˜ao onde ˆpn ∈ Mk(A), ou

seja, estimar essa matriz independente da sua ordem e alfabeto finito. Quando fazemos essa estima¸c˜ao com k = 0, 1, 2, ... obtemos para cada k calculado ˆp(0)n , ˆp(1)n , ˆp(2)n , ... onde

ˆ p(0)n = n X t=1 I{xt=a}.

O objetivo principal nesta se¸c˜ao ´e estimar k para uma amostra, utilizando os m´etodos de Crit´erio de informa¸c˜ao Bayesiano (BIC), Algoritmo contexto e o Crit´erio de deter-mina¸c˜ao eficiente (EDC) a fim de verificar a eficiˆencia de cada m´etodo para diferentes tamanhos de amostras.

Seja ˆk o grau estimado do polinˆomio tal que minimize o erro: E(xn1; ˆα0, ˆα1, ˆαk).

Selecionada uma amostra X1n= an1, para cada ˆk escolhido calculamos o ˆp(k)n ,

ˆ p(k)n (b|a−1−k) = Nn(a −1 −kb) Nn−1(a−1−k) =⇒ ˆpM V (k)(X1n= a n 1) = P {X k 1 = a n k} Y a−k−1∈Ak Y b∈A ˆ pkn(b|a−1−k)Nn(a−1−kb) Lk(ak1) = log( ˆPM V (k){(X1n= a n 1)}) = X a−1−k X b Nn(a−1−kb) log ˆp(k)n (b|a −1 −k)

Neste caso, maximizar a verossimilhan¸ca da amostra n˜ao adiantaria, pois fixada a amostra com n >> k a sequˆencia sempre ser´a crescente, ent˜ao a escolha de um k grande n˜ao resultaria numa boa estima¸c˜ao.

3.10.1

Crit´

erio de informa¸

ao Bayesiano (BIC)

´

E um crit´erio que seleciona o alcance ¯k, levando em considera¸c˜ao a rela¸c˜ao custo benef´ıcio com ¯k << n.

(37)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 36

log

ˆ

PM V (k)(X1k)

custo do modelo de alcance k !

= Lk(X1n) − log(custo(k))

onde c(k, n) = c. |A|k.(|A| − 1)

| {z }

. log(n), em geral c = 1 2

Nota¸c˜ao:BIC(k, X1n) = log ˆPM V (k)(X1n) − c([|A|k(|A| − 1))] log(n).

Exemplo 3.10.1. Supondo um alfabeto A = {0, 1} vamos determinar o alcance K da cadeia dada a matriz:

P = 0, 7 0, 3 0, 6 0, 4

! .

Simulamos uma cadeia com n=10000, encontramos o ˆp(0), ˆp(1), ˆp(2), ..., ˆp(k) e

aplica-mos na fun¸c˜ao ˆPM V (0), ˆPM V (1), ˆPM V (2), ..., ˆPM V (k) respectivamente, a fim de verificar se

(BIC(k, X1n) − BIC(k − 1, X1n)) ≥ 0. Para k=0: ˆ p(0)(0) = Nn(1) n = 0, 6598; ˆ p(0)(1) = Nn(0) n = 0, 3402; ˆ PM V (0) = Y b (ˆp(0)n (b))Nn(b).

Aplicando L0( ˆPM V (0)) e substituindo os valores observados da amostra:

L0( ˆPM V (0)) = X b Nn(b) log ˆp(0)n (b) = Nn(0) log(ˆp(0)n (0)) + Nn(1) log(ˆp(0)n (1)) = 6598 log(0, 6598) + 3402 log(0, 3402) = −9250, 1.

(38)

Substituindo o valor encontrado de L0( ˆPM V (0)) na equa¸c˜ao BIC(0, X1n):

BIC(0, X1n) = L0( ˆPM V (0)) − c([|A|0(|A| − 1))] log(n)

= −9.250, 1 − 1 2([|2| 0(|2| − 1)]) log(10000) = −9.251, 761. Para k=1: ˆ α = ˆp(1)(0|0) = Nn(00) Nn−1(0) = 4578 4578 + 2019 = 0, 693951796, 1 − ˆα = ˆp (1)(1|0) = 0, 306048203; ˆ β = ˆp(1)(1|1) = Nn(11) Nn−1(1) = 1383 1338 + 2020 = 0, 406406112, 1 − ˆβ = ˆp (1)(0|1) = 0, 59359388. ˆ PM V (1) = Y u∈A Y b∈A (ˆp(1)n (b|u))Nn(ub)

Aplicando L1( ˆPM V (1)) e substituindo os valores observados da amostra:

L1( ˆPM V (1)) =

X

u∈A

X

b∈A

Nn(ub) log ˆp(1)n (b|u)

= Nn(00) log(ˆp(1)(0|0)) + Nn(01) log(ˆp(1)(1|0)) + Nn(10) log(ˆp(1)(0|1)) + Nn(11) log(ˆp(1)(1|1))

= 4578 log(0, 693951796) + 2019 log(0, 306048203) + 2020 log(0, 5935) + 1383 log(0, 4065) = −9178, 302

Substituindo o valor encontrado de L1( ˆPM V (1)) na equa¸c˜ao BIC(1, X1n):

BIC(1, X1n) = L1( ˆPM V (1)) − c([|A|1(|A| − 1))] log(n)

= −6328, 352 − 1 2([|2| 1(|2| − 1))] log(10000) = −9181, 624. Temos que: BIC(1, X1n) = −9178, 302 BIC(0, X0n) = −9251, 761.

(39)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 38

Como BIC(1, X1n) = −9178, 302 > BIC(0, X0n) = −9251, 761, ent˜ao podemos afir-mar que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem, acrescentou informa¸c˜oes relevantes.

K=2 ˆ α = ˆp(0|00) = 3.190 ˆ α − 1.361 1 − ˆα = 0 =⇒ ˆα = 3190 3190 + 1361 = 3190 4551 = 0, 7017697. ˆ β = ˆp(0|10) = 1.050 ˆ β − 666 1 − ˆβ = 0 =⇒ ˆβ = 1050 669 + 1050 = 669 1719 = 0, 4026746. ˆ γ = ˆp(0|01) = 1.362 ˆ γ − 357 1 − ˆγ = 0 =⇒ ˆγ = 1362 1362 + 357 = 1362 1719 = 0, 6762376. ˆ θ = ˆp(0|11) = 1050 ˆ θ − 961 1 − ˆθ = 0 =⇒ ˆθ = 1050 1050 + 961 = 1050 2011 = 0, 4114244. ˆ p =        0, 7017697 0, 2982303 0, 5973254 0, 4026746 0, 6762376 0, 3237624 0, 5885756 0, 4114244        ˆ PM V (2) = Y u∈A Y b∈A ˆ p(2)n (b|u)Nn(ub)

(40)

L2( ˆPM V (2)) =

X

u∈A

X

b∈A

Nn(ub) log ˆp(2)n (b|u)

= Nn(000) log(ˆp(2)(0|00)) + Nn(001) log(ˆp(2)(1|00) + Nn(010) log(ˆp(2)(0|10))

+ Nn(011) log(ˆp(2)(1|10) + Nn(100) log(ˆp(2)(0|01)) + Nn(101) log(ˆp(2)(1|01)

+ Nn(110) log(ˆp(2)(0|11)) + Nn(111) log(ˆp(2)(1|11)

= 3212 log(0, 7017697) + 1365 log(0, 2982303) + 1206 log(0, 5973254) + 813 log(0, 4026746) + 1366 log(0, 6762376) + 654 log(0, 3237624) + 814 log(0, 5885756) + 569 log(0, 4114244) = −9173, 729.

Substituindo o valor encontrado de L2( ˆPM V (2)) na equa¸c˜ao BIC(2, X1n):

BIC(2, X1n) = L2( ˆPM V (1)) − c([|A|1(|A| − 1))] log(n)

= −9173, 729 − 1 2([|2| 2 (|2| − 1))] log(10000) = −9180, 373. Temos que: BIC(1, X1n) = −9178, 302 BIC(2, X1n) = −9180, 373 Como BIC(2, Xn

1) = −9180, 373 < BIC(1, X1n) = −9178, 302, ent˜ao podemos

afir-mar que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem para 2 n˜ao acrescentou informa¸c˜ao relevante.

3.10.2

Algoritmo contexto

1. Calcular ˆpkn(b|a−1−k) para todo k ≤ log|A|n,

1.1. k = 1

2log|A|n para ter suficientes repeti¸c˜oes de a

−1

−k, pois se obtivermos

sequˆencias muito longas, n˜ao teremos repeti¸c˜oes. 1.2. a−1−k ´e candidato a contexto.

2. Para cada a−1−(k−1) decidimos se a informa¸c˜ao ´e relevante. 3. Se for relevante, decidimos que a−1−k ∈ ˆτn.

4. Se n˜ao for relevante essa informa¸c˜ao a−1−k, recome¸camos no passo 1, mas agora com a−1−(k−1) como novo candidato a contexto.

(41)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 40

Seja uma amostra X1, X2, X3, ..., Xn gerada por uma cadeia de Markov de alcance

fixo finito, queremos estimar o alcance desta cadeia por um m´etodo diferente da se¸c˜ao anterior. Vamos supor que conhecemos k onde k < n − 1 e queremos testar se ˆp(k)e ˆp(k+1)

s˜ao t˜ao pr´oximos ao ponto de afirmarmos a hip´otese nula(H0),

H0 : p(k+1)(b|a−1−k+1) = p

(k)(b|a−1 −k),

para isso vamos calcular:

∆n(a−1−k) = max a−1−(k−1)∈Ak−1 max a∈A |ˆpn(b|a −1 −k) − ˆpn(b|a−1−(k−1))|.

Definimos δ ∈ (0, 1) (um valor pequeno) como a precis˜ao do ˆk. Se ∆n(a−1−k) < δ

dizemos que a informa¸c˜ao de ordem k foi irrelevante. Para verificar se a−k ´e relevante

devemos comparar todos os valores de a para todos os valores de b.

Vamos utilizar a amostra do Exemplo 3.10.1 onde ˆpn(b|u) para k = 1, k = 2 e

A = {0, 1} encontra-se na tabela 1 :

Tabela 1: Probabilidade de transi¸c˜ao Pn(b|u)

u 0 1 0 0,6978352 0,3021648 1 0,6003584 0,3996416 00 0,6968979 0,3031021 10 0,7 0,3 01 0,6114428 0,3885572 11 0,583707 0,416293

(42)

|ˆp(2)n (0|00) − ˆp(1)n (0|0)| = 0, 0009373112 < 0, 05; |ˆp(2)n (0|10) − ˆp(1)n (0|0)| = 0, 0021648 < 0, 05; |ˆp(2)n (1|00) − ˆp(1)n (1|0)| = 0, 0009373112 < 0, 05; |ˆp(2)n (1|10) − ˆp(1)n (1|0)| = 0, 0021648 < 0, 05; |ˆp(2)n (0|01) − ˆp(1)n (0|1)| = 0, 01108439 < 0, 05; |ˆp(2)n (0|11) − ˆp(1)n (0|1)| = 0, 01665137 < 0, 05; |ˆp(2)n (1|01) − ˆp(1)n (1|1)| = 0, 01108439 < 0, 05; |ˆp(2)n (1|11) − ˆp(1)n (1|1)| = 0, 01665137 < 0, 05.

Como o valor de ∆n(a−1−k) < 0, 05, podemos aceitar H0. Como j´a vimos no crit´erio de

informa¸c˜ao Bayesiano, verificamos que as informa¸c˜oes observadas na cadeia de ordem 2 n˜ao foram relevantes em rela¸c˜ao a amostra observada de ordem 1.

3.10.3

Crit´

erio de determina¸

ao eficiente (EDC)

Englobam crit´erios do BIC, sendo baseado na log-verossimilhan¸ca m´axima e com certa liberdade de escolha do termo de penalidade. Onde k ´e estimado por ˆkEDC definida por:

ˆ

kEDC = argmin{EDC(k); k = 0, ..., K}

e

EDC(k) = −2 log ˆPM V (k)+ γ(k)cn,

onde γ(.) ´e uma fun¸c˜ao positiva e estritamente crescente, cn > 0 e log ˆPM V (k) ´e a

fun¸c˜ao de m´axima verossimilhan¸ca da amostra.

Sob condi¸c˜oes de regularidade, a escolha ´otima ´e dada por:

(43)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 42

com

ˆ

kEDC = argmink>0EDCopt(k).

Vamos utilizar a matriz de transi¸c˜ao do Exemplo 3.10.1 onde ˆpn(b|u) para k = 1,

k = 2 e A = {0, 1}.

Simulamos uma cadeia com n=10000, encontramos o ˆp(0), ˆp(1), ˆp(2), ..., ˆp(k) e aplica-mos na fun¸c˜ao ˆPM V (0), ˆPM V (1), ˆPM V (2), ..., ˆPM V (k) respectivamente, a fim de verificar se

(EDC(k, Xn 1) − EDC(k − 1, X1n)) ≥ 0. Para k=0: ˆ p(0)(0) = Nn(1) n = 0, 6598; ˆ p(0)(1) = Nn(0) n = 0, 3402; ˆ PM V (0) = Y b (ˆp(0)n (b))Nn(b).

Aplicando L0( ˆPM V (0)) e substituindo os valores observados da amostra:

L0( ˆPM V (0)) = X b Nn(b) log ˆp(0)n (b) = Nn(0) log(ˆp(0)n (0)) + Nn(1) log(ˆp(0)n (1)) = 6598 log(0, 6598) + 3402 log(0, 3402) = −9250, 1.

Substituindo o valor encontrado de L0( ˆPM V (0)) na equa¸c˜ao EDC(0, X1n):

EDC(0, X1n) = −2L0( ˆPM V (0))(k) + 2|A|k+1log log n

= −2(−9250, 1) + 2|2|0+1log(log(10000)) = 18515, 13.

(44)

ˆ α = ˆp(1)(0|0) = Nn(00) Nn−1(0) = 4578 4578 + 2019 = 0, 693951796, 1 − ˆα = ˆp (1)(1|0) = 0, 306048203; ˆ β = ˆp(1)(1|1) = Nn(11) Nn−1(1) = 1383 1338 + 2020 = 0, 406406112, 1 − ˆβ = ˆp (1)(0|1) = 0, 59359388. ˆ PM V (1) = Y u∈A Y b∈A (ˆp(1)n (b|u))Nn(ub)

Aplicando L1( ˆPM V (1)) e substituindo os valores observados da amostra:

L1( ˆPM V (1)) =

X

u∈A

X

b∈A

Nn(ub) log ˆp(1)n (b|u)

= Nn(00) log(ˆp(1)(0|0)) + Nn(01) log(ˆp(1)(1|0)) + Nn(10) log(ˆp(1)(0|1)) + Nn(11) log(ˆp(1)(1|1))

= 4578 log(0, 693951796) + 2019 log(0, 306048203) + 2020 log(0, 5935) + 1383 log(0, 4065) = −9178, 302

Substituindo o valor encontrado de L1( ˆPM V (1)) na equa¸c˜ao EDC(1, X1n):

EDC(1, X1n) = −2L1( ˆPM V (1))(k) + 2|A|k+1log log n

= −2(−9178, 302) + 2|2|1+1log(log(10000)) = 18386, 46.

Temos que:

EDC(1, X1n) = 18386, 46 EDC(0, X0n) = 18515, 13.

Como EDC(1, Xn

1) = 1.8386, 46 < EDC(0, X0n) = 18515, 13, ent˜ao podemos afirmar

que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem, acrescentou informa¸c˜oes relevantes.

(45)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 44 ˆ α = ˆp(0|00) = 3.190 ˆ α − 1.361 1 − ˆα = 0 =⇒ ˆα = 3190 3190 + 1361 = 3190 4551 = 0, 7017697. ˆ β = ˆp(0|10) = 1.050 ˆ β − 666 1 − ˆβ = 0 =⇒ ˆβ = 1050 669 + 1050 = 669 1719 = 0, 4026746. ˆ γ = ˆp(0|01) = 1.362 ˆ γ − 357 1 − ˆγ = 0 =⇒ ˆγ = 1362 1362 + 357 = 1362 1719 = 0, 6762376. ˆ θ = ˆp(0|11) = 1.050 ˆ θ − 961 1 − ˆθ = 0 =⇒ ˆθ = 1050 1050 + 961 = 1050 2011 = 0, 4114244. ˆ p =        0, 7017697 0, 2982303 0, 5973254 0, 4026746 0, 6762376 0, 3237624 0, 5885756 0, 4114244        ˆ PM V (2) = Y u∈A Y b∈A ˆ p(2)n (b|u)Nn(ub)

Aplicando L2( ˆPM V (2)) e substituindo os valores observados da amostras:

L2( ˆPM V (2)) =

X

u∈A

X

b∈A

Nn(ub) log ˆp(2)n (b|u)

= Nn(000) log(ˆp(2)(0|00)) + Nn(001) log(ˆp(2)(1|00) + Nn(010) log(ˆp(2)(0|10))

+ Nn(011) log(ˆp(2)(1|10) + Nn(100) log(ˆp(2)(0|01)) + Nn(101) log(ˆp(2)(1|01)

+ Nn(110) log(ˆp(2)(0|11)) + Nn(111) log(ˆp(2)(1|11)

= 3212 log(0, 7017697) + 1365 log(0, 2982303) + 1206 log(0, 5973254) + 813 log(0, 4026746) + 1366 log(0, 6762376) + 654 log(0, 3237624) + 814 log(0, 5885756) + 569 log(0, 4114244) = −9173, 729.

(46)

EDC(2, X1n) = −2L2( ˆPM V (2))(k) + 2|A|k+1log log n = −2(−9173, 7290) + 2|2|2+1log(log(10000)) = 18407, 17 Temos que: EDC(1, X1n) = 18386, 46 EDC(2, X1n) = 18407, 17 Como EDC(2, Xn

1) = 18407, 17 > EDC(1, X1n) = 18386, 46, ent˜ao podemos afirmar

que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem para 2 n˜ao acrescentou informa¸c˜ao relevante.

(47)

46

4

An´

alise dos Resultados

Neste cap´ıtulo, s˜ao apresentados todos os resultados obtidos nas simula¸c˜oes realizadas com o objetivo de comparar os estimadores BIC, Algoritmo Contexto e EDC, definidos nas Se¸c˜oes (3.10.1), (3.10.2) e (3.10.3).

Essas simula¸c˜oes foram geradas considerando o alcance de 1 a 6 e com espa¸co de estados fixados em 2, totalizando 24 casos para cada estimador estudado. Em cada um desses, foram simuladas 100 cadeias de Markov de tamanho n=1000, n=10000, n=50000 e n=100000.

As Tabelas (2), (3), (4) e (5) representam as propor¸c˜oes de subestima¸c˜ao, acerto e superestima¸c˜ao para cada n, onde n representa o tamanho da amostra e k o alcance da cadeia.

As simula¸c˜oes foram realizadas atrav´es do programa computacional R.

Tabela 2: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 06 (%).

n k BIC EDC Algoritmo Contexto

< = > < = > < = > 1 0 100 0 0 100 0 16 65 19 2 0 100 0 0 100 0 44 52 4 1000 3 0 100 0 0 100 0 68 32 0 4 0 100 0 52 48 0 87 13 0 5 51 49 0 100 0 0 100 0 0 6 100 0 0 100 0 0 100 0 0

(48)

Tabela 3: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 03 (%).

n k BIC EDC Algoritmo Contexto

< = > < = > < = > 1 0 100 0 0 100 0 1 55 44 2 0 100 0 0 100 0 14 73 13 10000 3 0 100 0 0 100 0 13 73 14 4 0 100 0 0 100 0 94 6 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0

Tabela 4: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 015 (%).

n k BIC EDC Algoritmo Contexto

< = > < = > < = > 1 0 100 0 0 100 0 0 25 75 2 0 100 0 0 100 0 12 69 19 50000 3 0 100 0 0 100 0 9 73 18 4 0 100 0 0 100 0 90 10 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0

Tabela 5: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 0075 (%).

n k BIC EDC Algoritmo Contexto

< = > < = > < = > 1 0 100 0 0 100 0 0 80 20 2 0 100 0 0 100 0 40 50 10 100000 3 0 100 0 0 100 0 39 58 3 4 0 100 0 0 100 0 98 2 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0

(49)

48

5

Conclus˜

oes

As simula¸c˜oes realizadas mostram o estimador BIC mais eficiente para amostras de tamanho 1000, onde obteve melhor performance nos alcances 4 e 5 com taxa de acerto de 100% e 49% respectivamente, enquanto, 48% e 0% do EDC e 13% e 0% do Algoritmo Contexo. O Algoritmo Contexto manteve taxa de acerto inferior a 66% para amostras de tamanho 1000. A medida que o alcance aumenta os estimadores tem tendˆencia a subestimar em amostras pequenas.

Em linhas gerais, conclui-se que os estimadores BIC e EDC mostraram-se consistentes, diferente do Algoritmo Contexto, que mostrou-se inconsistente para todos os alcances estudados. Para cada tamanho de amostra do estimador Algoritmo Contexto foi adotada uma precis˜ao diferente, a cada aumento dessa amostra, houve um decr´escimo do δ, o crit´erio para esses valores foi baseado no tamanho da amostra, pois quanto maior, mais pr´oximo o ˆpndo pn, ou seja, a diferen¸ca entre a matriz de propor¸c˜ao estimada e a matriz de

propor¸c˜ao real seria pr´oxima de 0. Com esse crit´erio, notamos que houve maior acerto para amostras de alcances 1, 2 e 3 chegando no m´aximo a 80%, enquanto para alcances maiores o Algoritmo Contexto subestimou em todos os casos. Com os resultados obtidos atrav´es do estudo realizado para o estimador Algoritmo contexto, percebe-se que o tamanho da amostra e do alfabeto influencia na escolha do δ, sendo assim, ele precisa ser estudado em trabalhos futuros.

(50)

Referˆ

encias

[1] SHAMBLIN, J. E. Introduction to Probability Theory and Statistical Inference. [S.l.]: Atlas, 1982.

[2] KAC, M. & LOGAN, J. in Fluctuation Phenomena, eds. E.W. Montroll & J.L. Le-bowitz, North-Holland, Amsterdam, 1976.

[3] NELSON, E. Quantum Fluctuations, Princeton University Press, Princeton, 1985. [4] DURRETT, Rick. Essentials of Stochastic Processes. 2. ed. Version Beta, 2010. [5] HOEL, PORT & STONE. Introduction to Stochastic Processes, [S.l.]. University of

California, Los Angeles, 1972.

[6] ROSS, Sheldon M. Introduction to Probability Models. 9. ed, Elsevier,2007.

[7] GALVES, Antˆonio & NUNES, R. Klanfer Um curso de inferˆencia e sele¸c˜ao estat´ıstica de cadeias de alcance vari´avel, S˜ao Paulo,2014.

[8] GALVES, Antˆonio & YAGINUMA, Karina Yuriko Notas do curso Inferˆencia em Pro-cessos Estoc´asticos.

[9] CHANG C.Y. Dorea, CATIA R. Gon¸calves and PAULO A.A. Resende Simulation Results for Markov Model Seletion : AIC, BIC and EDC, 4 October, 2014, San Francisco, USA.

(51)

5.1 Anexo A- C´odigo fonte dos estimadores 50

5.1

Anexo A- C´

odigo fonte dos estimadores

1 ################################################# ###### Funcao p a r a g e r a r a amostra ######## 3 ################################################# 5 amostra<−f u n c t i o n( n , r e p l i c a c o e s , k=2 , A l f a b e t o=c( 0 , 1 ) , prob ) { #Fixando a amostra 7 s e t. s e e d ( 1 0 0 ) # n = tamanho da amostra 9 # r e p l i c a c o e s = q u a n t i d a d e de a m o s t r a s # k = a l c a n c e 11 # A l f a b e t o = Espaco Amostral # prob = m a t r i z de t r a n s i c a o 13 #p a c o t e p a r a a m a n i p u l a c a o do p e r m u t a t i o n 15 l i b r a r y( g t o o l s ) 17 amostra<−NULL MA<−m a t r i x(NA, r e p l i c a c o e s , n+k ) 19 #M a t r i z de p o s s i b i l i d a d e s de a c o r d o com o a l c a l c e e a l f a b e t o 21 a<−m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k ) , k ) 23 #p a r a a l f a b e t o de tamanho 2 f o r( j i n 1 : r e p l i c a c o e s ) { 25 i f(l e n g t h( A l f a b e t o ) ==2){ #s o r t e a n d o a amostra i n i c i a l de a c o r d o com o a l c a n c e 27 amostra<−sample( A l f a b e t o , k ,r e p l a c e = T) f o r( i i n 1 : ( n ) ) { 29 s o r t e i o<−r u n i f( 1 ) #p e r c o r r e a m a t r i z de permutacao e v e r i f i c a a i g u a l d a d e da amostra g e r a d a com cada l i n h a da m a t r i z de permutacao

31 f o r(t i n 1 :l e n g t h( A l f a b e t o ) ˆk ) {

i f(a l l(u n i q u e( amostra [ i : ( i+k−1) ] ) == a [t, ] ) ) {

33 i f( s o r t e i o <prob [t, 1 ] ) { amostra [ i+k ]<−0} e l s e{ amostra [ i+k ]=1}}

}} 35 MA[ j , ]<−amostra } 37 r e t u r n(MA) } #p a r a a l f a b e t o de tamanho 3 39 i f(l e n g t h( A l f a b e t o ) ==3){

(52)

f o r( j i n 1 : r e p l i c a c o e s ) { 41 #s o r t e a n d o a amostra i n i c i a l de a c o r d o com o a l c a n c e amostra=sample( A l f a b e t o , k ,r e p l a c e <− T) 43 f o r( i i n 1 : ( n ) ) { s o r t e i o<−r u n i f( 1 ) 45 #p e r c o r r e a m a t r i z de permutacao e v e r i f i c a a i g u a l d a d e da amostra g e r a d a

com cada l i n h a da m a t r i z de permutacao

f o r(t i n 1 :l e n g t h( A l f a b e t o ) ˆk ) {

47 #v e r i f i c a q u a l l i n h a da m a t r i z de permutacao a amostra p e r t e n c e p a r a

i d e n t i f i c a r em q u a l l i n h a da m a t r i z de t r a n s i c a o u s a r

i f(a l l(u n i q u e( amostra [ i : ( i+k−1) ] ) == a [t, ] ) ) {

49 #v e r i f i c a o s o r t e i o com a amostra s e l e c i o n a d a da m a t r i z de t r a n s i c a o

i f( s o r t e i o <min( prob [t, ] ) ) { amostra [ i+k ]<−0}

51 e l s e{i f(min( prob [t, ] )<=s o r t e i o && s o r t e i o <=max( prob [t, 3 ] ) ) {

amostra [ i+k ]<−1} e l s e{ amostra [ i+k ]<−2}}} 53 }} MA[ j , ]<−amostra 55 } r e t u r n(MA) } 57 e l s e{p r i n t(” E s c o l h a um A l f a b e t o menor , por f a v o r! ! !”) } } 59 61 ############################################################# 63 ###### Funcao p a r a g e r a r a m a t r i z de t r a n s i c a o ####### ############################################################# 65 g e r a m a t r i z<−f u n c t i o n( k , A l f a b e t o=c( 0 , 1 ) ) { 67 # k = a l c a n c e da c a d e i a # A l f a b e t o = Espaco Amostral 69 m<− m a t r i x(r u n i f(l e n g t h( A l f a b e t o ) ˆ ( k )∗ l e n g t h( A l f a b e t o ) , 0 , 1 ) , n c o l=l e n g t h( A l f a b e t o ) )

m a t r i z t r a n s i c a o<− round(sweep(m, 1 , rowSums (m) , FUN=”/”) , 2 )

71 m a t r i z t r a n s i c a o=d a t a.frame( m a t r i z t r a n s i c a o )

}

(53)

5.2 Anexo B- C´odigo fonte do estimador de BIC 52 2 BIC <−f u n c t i o n( k r e a l , n , r e p l i c a c o e s , A l f a b e t o ) { 4 #f i x a n d o o s v a l o r e s da m a t r i z de p r o b a b i l i d a d e s e t. s e e d ( 2 ) 6 r e s u l t a d o <− NULL t a b e l a r e s u l t a d o s <− NULL 8 prob <− g e r a m a t r i z ( k r e a l , A l f a b e t o ) #g e r a n d o a amostra 10 x <−amostra ( n , r e p l i c a c o e s , k r e a l , A l f a b e t o , prob ) tamanho amostra <− l e n g t h( x [ 1 , ] ) 12 k e s t i m a d o <− r e p( 0 , r e p l i c a c o e s ) 14 f o r( r i n 1 : r e p l i c a c o e s ) { b i c <− c( ) 16 f o r( j i n 1 : 8 ) { tamanho amostra=l e n g t h( x [ 1 , ] ) 18 k <− j p <− NULL 20 l o g v e r o <− NULL a <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k+1 , A l f a b e t o , r e p e a t s=TRUE) , l e n g t h( A l f a b e t o ) ˆ ( k+1) , k+1) 22 v e t o r contagem <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k+1) ) m a t r i z contagem <− c b i n d( a , v e t o r contagem ) 24 26 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k+1) ) ) { v e t o r contagem [t]=0 28 f o r( i i n 1 : ( tamanho amostra−k ) ) {

i f(sum(abs( x [ r , i : ( i+k ) ]−a [t , ] ) ) ==0){ v e t o r contagem [t]= v e t o r contagem [t]+1} 30 }} m a t r i z contagem <− c b i n d( a , v e t o r contagem ) 32 z <− l e n g t h( A l f a b e t o ) 34 i <− 1 t <− 1 36 f o r( i i n 1 :l e n g t h( v e t o r contagem ) ) { i f( i <=z ) {

38 p [ i ]= v e t o r contagem [ i ]/sum( v e t o r contagem [t: z ] )

l o g v e r o [ i ]= v e t o r contagem [ i ]∗ l o g 2( p [ i ] )

(54)

t <− t+l e n g t h( A l f a b e t o )

42 z <− z+l e n g t h( A l f a b e t o )

p [ i ] <− v e t o r contagem [ i ]/sum( v e t o r contagem [t: z ] )

44 l o g v e r o [ i ]= v e t o r contagem [ i ]∗ l o g 2( p [ i ] ) } } 46 #p r i n t ( p ) b i c [ j ] <− sum(l o g v e r o ) −(0.5∗(l e n g t h( A l f a b e t o ) ˆk∗(l e n g t h( A l f a b e t o ) −1) )∗ l o g 2(l e n g t h( x [ 1 , ] ) ) ) 48 b i c <− b i c [! i s.na( b i c ) ] }

50 k e s t i m a d o [ r ] <− match(max( b i c ) , b i c )#r e t o r n a a p o s i c a o do maximo , ou

s e j a , do k e s t i m a d o } 52 k e s t i m a d o <− d a t a.frame( k e s t i m a d o ) p r i n t( k e s t i m a d o ) 54 a c e r t o <− k e s t i m a d o%>%summarise ( a c e r t o=sum( k e s t i m a d o %i n% k r e a l)/ r e p l i c a c o e s ) s u p e r e s t i m a <− k e s t i m a d o%>%summarise ( s u p e r e s t i m a=sum( k e s t i m a d o > k r e a l )/r e p l i c a c o e s ) 56 s u b e s t i m a <− k e s t i m a d o%>%summarise ( s u b e s t i m a=sum( k e s t i m a d o < k r e a l)/ r e p l i c a c o e s )

r e s u l t a d o <− d a t a.frame(K=k r e a l , n=tamanho amostra , S u b e s t i m a=p a s t e( s u b e s t i m a∗1 0 0 ,”%”) , 58 A c e r t o=p a s t e( a c e r t o∗1 0 0 ,”%”) , s u p e r e s t i m a=p a s t e( s u p e r e s t i m a∗ 1 0 0 ,”%”) ) 60 t a b e l a r e s u l t a d o s <− r b i n d( r e s u l t a d o , t a b e l a r e s u l t a d o s ) } 62 t a b e l a r e s u l t a d o s BIC <− BIC ( k r e a l=1 ,n =1000 , r e p l i c a c o e s =10 , A l f a b e t o=c( 0 , 1 ) )

5.3

Anexo C- C´

odigo fonte do estimador de

Algo-ritmo Contexto

A l g o r i t m o c o n t e x t o<−f u n c t i o n( k r e a l , n , r e p l i c a c o e s , A l f a b e t o , p r e c i s a o ) { 2 #Fixando amostra s e t. s e e d ( 2 ) 4 #p a c o t e p a r a a m a n i p u l a c a o do p i p e r (%>%) l i b r a r y( t i d y r )

(55)

5.3 Anexo C- C´odigo fonte do estimador de Algoritmo Contexto 54 6 l i b r a r y( d p l y r ) r e s u l t a d o <− NULL 8 t a b e l a r e s u l t a d o s <− NULL prob <− g e r a m a t r i z ( k r e a l , A l f a b e t o ) 10 #g e r a n d o a amostra tamanho amostra <− l e n g t h( x [ 1 , ] ) 12 x <− amostra ( n , r e p l i c a c o e s , k r e a l , A l f a b e t o , prob ) k e s t i m a d o <− r e p( 0 , r e p l i c a c o e s ) 14 f o r( r i n 1 : r e p l i c a c o e s ) { 16 d i f max e n t r e k2 k1 <− 1 k2=6 18 p r i n t( r ) 20 w h i l e( ( d i f max e n t r e k2 k1 > p r e c i s a o ) & ( k2 >0) ) { #A l c a n c e 22 k2 <− k2 p2 <− NULL 24 k1 <− k2−1 26 p1 <− NULL 28 #m a t r i z de t r a n s i c a o a1 <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k1 +1 , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k1 +1) , k1 +1) 30 v e t o r contagem 1 <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k1 +1) ) m a t r i z contagem 1 <− c b i n d( a1 , v e t o r contagem 1 ) 32 #m a t r i z de t r a n s i c a o 34 a2 <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k2 +1 , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k2 +1) , k2 +1) v e t o r contagem 2 <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k2 +1) ) 36 m a t r i z contagem 2 <− c b i n d( a2 , v e t o r contagem 2 ) 38 #Contagem e armazenamento p a r a k

#Aqui e g e r a d o a contagem de passagem p a r a cada e s t a d o de t r a n s i c a o

40 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k1 +1) ) ) {

v e t o r contagem 1 [t]=0

42 f o r( i i n 1 : ( tamanho amostra−k1 ) ) {

i f(sum(abs( x [ r , i : ( i+k1 ) ]− a1 [t, ] ) ) ==0){ v e t o r contagem 1 [t]= v e t o r contagem 1 [t]+1}

(56)

contagem 1 <− m a t r i x( v e t o r contagem 1 ,l e n g t h( A l f a b e t o ) ˆ ( k1 ) ,l e n g t h( A l f a b e t o ) , byrow=T) 46 p1 <− m a t r i x(a p p l y( contagem 1 , 1 ,prop.t a b l e) ,l e n g t h( A l f a b e t o ) ˆ ( k1 ) , l e n g t h( A l f a b e t o ) , byrow=T) m a t r i z contagem 1 <− c b i n d( a1 , v e t o r contagem 1 ) 48 #Contagem e armazenamento p a r a k+1

50 #Aqui e g e r a d o a contagem de passagem p a r a cada e s t a d o de t r a n s i c a o

52 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k2 +1) ) ) {

v e t o r contagem 2 [t] <− 0

54 f o r( i i n 1 : ( tamanho amostra−k2 ) ) {

i f(sum(abs( x [ r , i : ( i+k2 ) ]− a2 [t, ] ) ) ==0){ v e t o r contagem 2 [t]= v e t o r contagem 2 [t]+1} 56 }} 58 contagem 2 <− m a t r i x( v e t o r contagem 2 ,l e n g t h( A l f a b e t o ) ˆ ( k2 ) ,l e n g t h( A l f a b e t o ) , byrow=T) p2 <− m a t r i x(a p p l y( contagem 2 , 1 ,prop.t a b l e) ,l e n g t h( A l f a b e t o ) ˆ ( k2 ) , l e n g t h( A l f a b e t o ) , byrow=T) 60 m a t r i z contagem 2 <− c b i n d( a2 , v e t o r contagem 2 ) 62 #C a l c u l o p a r a a d i f e r e n c a o da m a t r i z p r o p o r c a o e n t r e k e k+1 d i f <− m a t r i x( 0 , 1 ,l e n g t h( p1 [ 1 , ] ) ) 64 f o r( i i n 1 :nrow( p1 ) ) { d i f [ i ]=abs( p1 [ i ]−p2 [ i ] )

66 d i f [ i+nrow( p1 ) ]=abs( p2 [ i+nrow( p1 ) ]−p1 [ i ] )

d i f=d i f [! i s.na( d i f ) ]#e x c l u i n d o o s Na 68 } d i f max e n t r e k2 k1 <− max(a s.v e c t o r( d i f ) ) 70 k2 <− k2−1 72 } k e s t i m a d o [ r ] <− k1 74 p r i n t( k e s t i m a d o ) } 76 k e s t i m a d o <− d a t a.frame( k e s t i m a d o ) p r i n t( k e s t i m a d o ) 78 a c e r t o <−k e s t i m a d o%>%summarise ( a c e r t o=sum( k e s t i m a d o %i n% k r e a l)/ r e p l i c a c o e s ) s u p e r e s t i m a <− k e s t i m a d o%>%summarise ( s u p e r e s t i m a=sum( k e s t i m a d o > k r e a l )/r e p l i c a c o e s )

Referências

Documentos relacionados

No estudo apresentado por Silva; Gonçalves; Pines (2012) relatam que a formação acadêmica dos recreadores normalmente são nas áreas de Educação Física, Turismo

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Apesar dos esforços para reduzir os níveis de emissão de poluentes ao longo das últimas décadas na região da cidade de Cubatão, as concentrações dos poluentes

Here, we aim to understand how expression of RA degradation enzymes (Cyp26) can be correlated with RA distribution and functions during amphioxus (B. lanceolatum)

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo

Para analisar as Componentes de Gestão foram utilizadas questões referentes à forma como o visitante considera as condições da ilha no momento da realização do

Dessa maneira, os resultados desta tese são uma síntese que propõe o uso de índices não convencionais de conforto térmico, utilizando o Índice de Temperatura de Globo Negro e

As taxas pela apreciação de processos tem como referencial o custo da contrapartida, calculado com base no tempo padrão dos serviços administrativos, o tempo