• Nenhum resultado encontrado

Inferência em cadeias com memória de alcance variável

N/A
N/A
Protected

Academic year: 2021

Share "Inferência em cadeias com memória de alcance variável"

Copied!
70
0
0

Texto

(1)

Inferˆ

encia em cadeias com mem´

oria de

alcance vari´

avel

Niter´oi - RJ, Brasil 05 de dezembro de 2019

(2)

Maiara Gripp

Inferˆ

encia em cadeias com mem´

oria

de alcance vari´

avel

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Douglas Rodrigues Coorientador: Profa. Karina Yuriko Yaginuma

Niter´oi - RJ, Brasil 05 de dezembro de 2019

(3)
(4)

Inferˆ

encia em cadeias com mem´

oria de

alcance vari´

avel

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “In-ferˆencia em cadeias com mem´oria de alcance vari´avel”, defen-dida por Maiara Gripp e aprovada em 05 de dezembro de 2019, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Douglas Rodrigues Departamento de Estat´ıstica – UFF

Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF

Prof. Dr. Guilherme Ost Departamento de Estat´ıstica – UFRJ

Profa. Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

(5)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

G846i Gripp, Maiara

Inferência em cadeias com memória de alcance variável / Maiara Gripp ; Douglas Rodrigues, orientador ; Karina Yuriko Yaginuma, coorientador. Niterói, 2019.

70 f.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Cadeias de alcance variável. 2. Algoritmo Contexto. 3. Critério de Informação Bayesiano. 4. Árvore de contextos. 5. Produção intelectual. I. Rodrigues, Douglas, orientador. II. Yaginuma, Karina Yuriko, coorientador. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. IV. Título.

(6)

-Nesta disserta¸c˜ao foram estudadas cadeias estoc´asticas de ordem fixa k ≥ 2, e cadeias de ordem vari´avel, com espa¸co de estados A = {0, 1}. Cadeias de alcance vari´avel s˜ao uma classe de cadeias estoc´asticas introduzidas por (RISSANEN, 1983). Nestas cadeias a ocorrˆencia de eventos depende de alguma por¸c˜ao do passado, e o tamanho desta por¸c˜ao ´e vari´avel em fun¸c˜ao da informa¸c˜ao contida nos eventos que j´a ocorreram. Abordou-se aqui como fazer inferˆencia sobre as probabilidades de transi¸c˜ao inerentes `as cadeias, e quanta informa¸c˜ao do passado deve ser usada para estim´a-las adequadamente. Para isto foram utilizados o Crit´erio de Informa¸c˜ao Bayesiano (BIC), e uma variante do Algoritmo Contexto. Estas probabilidades, quando estimadas corretamente, podem ser usadas para fazer predi¸c˜oes de grande utilidade pr´atica. Ao constatar que o Algoritmo Contexto estima qual parte do passado ´e relevante para fazer predi¸c˜oes, verificou-se que, para isto, ele decide se olhar um passo a mais no passado traz algum ganho de informa¸c˜ao significativo. Seu crit´erio de decis˜ao ´e um valor δ. Este valor deve permitir que o Algoritmo Contexto descarte informa¸c˜oes desnecess´arias e mantenha informa¸c˜oes relevantes. Uma vez que ele ´e fundamental para a aplica¸c˜ao do Algoritmo Contexto, propˆos-se estudar esse valor δ atrav´es de simula¸c˜oes. Foi poss´ıvel encontrar uma equa¸c˜ao que estima δ em fun¸c˜ao de duas vari´aveis explicativas, quando o modelo atende `as premissas necess´arias, e, desta forma, analisar o comportamento de δ diante de mudan¸cas nessas vari´aveis.

Palavras-chaves: Cadeias de alcance vari´avel, Algoritmo Contexto, Crit´erio de Informa¸c˜ao Bayesiano, ´Arvore de contextos.

(7)

Gostaria de agradecer aos meus orientadores, que est˜ao comigo praticamente desde que ingressei na faculdade, n˜ao s´o pelo auxilio neste trabalho mas por toda a dedica¸c˜ao nesses ´ultimos anos.

(8)

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 11 1.1 Motiva¸c˜ao . . . p. 12 1.2 Objetivos . . . p. 12 1.3 Organiza¸c˜ao . . . p. 13 2 Materiais e M´etodos p. 14 2.1 Cadeias de alcance k . . . p. 14 2.1.1 Inferˆencia para cadeias de mem´oria de alcance k . . . p. 17 2.2 Estima¸c˜ao do alcance de uma cadeia . . . p. 22 2.2.1 Crit´erio de Informa¸c˜ao Bayesiano (BIC) . . . p. 22 2.2.2 Algoritmo Contexto . . . p. 23 2.3 Cadeias de Alcance Vari´avel . . . p. 26 2.3.1 Conceitos b´asicos . . . p. 29 2.4 Estima¸c˜ao de ´arvores de contextos . . . p. 33 2.4.1 Crit´erio de Informa¸c˜ao Bayesiano (BIC) . . . p. 33 2.4.2 Algoritmo Contexto . . . p. 36 2.5 Modelo de Regress˜ao Linear M´ultipla com transforma¸c˜ao c´ubica . . . . p. 39

(9)

3.1.1 Considera¸c˜oes iniciais da simula¸c˜ao . . . p. 42 3.2 Simula¸c˜ao . . . p. 46 3.2.1 Rela¸c˜ao entre δ e as probabilidades de transi¸c˜ao . . . p. 47 3.2.2 Algoritmo para determina¸c˜ao de IAδ∗ . . . p. 48

3.2.3 Rela¸c˜ao linear entre δ e  . . . p. 51 3.2.4 Modelo de Regress˜ao Linear M´ultipla . . . p. 53 3.2.4.1 Compara¸c˜ao de resultados . . . p. 56

4 Conclus˜oes p. 62

Referˆencias p. 64

(10)

1 Amostra de tamanho n = 11 em A = {0, 1}. . . p. 17 2 Arvore completa para d = 3 e A = {0, 1}´ . . . p. 24 3 Arvore completa para d = 2 e A = {0, 1}´ . . . p. 25 4 Arvore de contextos para Z´ n. . . p. 27

5 Amostra de tamanho 10 de Y10

1 , um sistema com 3 neurˆonios. . . p. 28

6 Exemplos de ´arvores. . . p. 30 7 Exemplo de ´arvore irredut´ıvel τ . . . p. 31 8 Arvore da Figura 7 truncada em k = 3, τ |´ 3. . . p. 32

9 Log negativo da Verossimilhan¸ca para τ . . . p. 35 10 BIC para τ . . . p. 36 11 Arvore completa para d = 4 e A = {0, 1}´ . . . p. 37 12 Arvore de contextos da Figura 11 ap´´ os primeira aplica¸c˜ao do passo 2. p. 38 13 Arvore de contextos da Figura 12 ap´´ os aplica¸c˜ao do passo 3. . . p. 38 14 Arvore referente a τ´ 0 = {0, 01, 011, 111} com A = {0, 1} . . . p. 43

15 Comportamento de δl e δu a mudan¸cas em N mantendo d = 4, para τ2. p. 49

16 Intervalos de aceita¸c˜ao de δ . . . p. 50 17 Distribui¸c˜ao de δ∗ em fun¸c˜ao de  para cada τi . . . p. 52

18 Distribui¸c˜ao de δ∗ em fun¸c˜ao de n e  para τ2. . . p. 53

(11)

1 Listagens de ´arvores de contextos por cardinalidade . . . p. 35 2 Rela¸c˜ao d versus n . . . p. 46 3 Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario bom. p. 48

4 Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario ruim. p. 48

5 Valor de d para cada N nas Tabelas 3 e 4 . . . p. 49 6 Parte de resultados da 2a simula¸c˜ao. . . . . p. 51

7 Tabela com resultados da estima¸c˜ao dos modelos RLM. . . p. 55 8 Tabela com resultados dos testes de normalidade dos res´ıduos e R2 dos

modelos ajustados . . . p. 55 9 Resultados de testes de aplicabilidade de (3.1) e (3.2) para τ2. . . p. 58

10 Resultados de testes de aplicabilidade de (3.1) e (3.2) para τ4. . . p. 59

11 Resultados de testes de aplicabilidade de (3.1) e (3.2) . . . p. 60 12 Resultados de testes de aplicabilidade de (3.1) e (3.2) . . . p. 61 13 Resultados da simula¸c˜ao 2 . . . p. 69

(12)

1

Introdu¸

ao

Fazer previs˜oes ´e uma necessidade humana, ´e o que antecede toda a tomada de de-cis˜ao. A possibilidade de melhorar a qualidade das previs˜oes depende da quantidade de informa¸c˜ao dispon´ıvel. Em geral, previs˜oes s˜ao obtidas a partir do passado. Por exemplo, at´e uma crian¸ca pode estimar que o vendedor de picol´e vai passar no mesmo hor´ario do dia anterior, e se ele repetiu o padr˜ao nos dias que antecederam, melhor ainda.

Seria ´otimo obter uma probabilidade acurada sobre um evento futuro baseado apenas no que ocorreu hoje, mas, `as vezes, ´e preciso revisitar tamb´em alguns eventos no passado para ter mais certeza. Uma cadeia estoc´astica descreve a evolu¸c˜ao de um determinado fenˆomenos ao longo do tempo. A partir dela ´e poss´ıvel estimar a probabilidade de um evento se repetir no futuro. Existe, entretanto, o custo operacional de olhar para toda a cadeia, e ele pode ser inviabilizante. Diante disso, (RISSANEN, 1983) introduziu um conceito de “parte relevante do passado”, o contexto. O contexto ´e uma sequˆencia de eventos que, uma vez identificada em uma cadeia, dispensa qualquer informa¸c˜ao adicional. Mas como identificam-se os contextos? Se o vendedor de picol´e chegou no mesmo hor´ario nos ´ultimos 3 dias, vale a pena lembrar o que ocorreu antes disso? Mas e se houve um grande atraso justamente no dia anterior? Uma ideia para identificar um contexto ´e verificar se olhar mais para o passado n˜ao melhora a predi¸c˜ao a ponto de justificar o custo. Para isso ´e preciso limitar quanta certeza se est´a disposto a perder. Qual perda preditiva vale a pena tolerar para reduzir o custo?

Neste trabalho abordou-se o estudo de cadeias estoc´asticas, que dependem do passado, em busca de ferramentas que possam melhora a predi¸c˜ao de eventos. Foram analisadas duas formas de estima¸c˜ao das ´arvores de contexto, dentre elas uma variante do Algoritmo Contexto. Esta variante, definida em (GALVES; MAUME-DESCHAMPS; SCHMITT, 2008) depende de um crit´erio de decis˜ao δ. Por fim, procurou-se compreender este δ e tentar encontrar maneiras de estima-lo dados alguns crit´erios iniciais.

(13)

1.1

Motiva¸

ao

Este trabalho foi motivado pela crescente utiliza¸c˜ao de cadeias de alcance vari´avel nas mais diversas ´areas como Lingu´ıstica, Log´ıstica, Economia, Biologia, em particular, no estudo de Neurociˆencias, pelo modelo de Galves-L¨ocherbach, apresentado em (GALVES; L ¨OCHERBACH, 2012).

Existem muitos eventos cuja ocorrˆencia pode ser estimada observando o passado. Muitas vezes ´e poss´ıvel predizer a pr´oxima palavra de um texto baseado apenas no que j´a foi escrito. A hora da chegada de um ˆonibus, a um ponto em um determinado dia, pode ser estimada a partir da hora de chegada nos dias anteriores. At´e mesmo os tempos em que ocorrer˜ao disparos em um sistema de neurˆonios podem ser estimados a partir dos ´

ultimos disparos nesse sistema. Diante disso fica clara a necessidade do estudo de cadeias estoc´asticas, cujas probabilidades de realiza¸c˜ao de eventos dependem exclusivamente do passado. Este trabalho pretende o aprofundamento neste estudo atrav´es, principalmente, na an´alise do Algoritmo Contexto. Um resumo completo sobre cadeias de alcance vari´avel e Algoritmo Contexto pode ser encontrado em (GALVES; L ¨OCHERBACH, 2008).

O Algoritmo Contexto ´e uma ferramenta utilizada para estimar qual parte do passado, registrada nas cadeias estoc´asticas, ´e relevante para estimar o pr´oximo evento. A variante do Algoritmo Contexto que ser´a estudada aqui tem por crit´erio de decis˜ao um valor δ. A importˆancia do δ para a aplica¸c˜ao do Algoritmo Contexto foi motivadora para que sua an´alise fosse alvo de destaque neste trabalho, principalmente ao considerar a ausˆencia de estudos sobre ele at´e o momento.

1.2

Objetivos

Os objetivos deste trabalho s˜ao:

• Estudar processos estoc´asticos cujas probabilidades de transi¸c˜ao n˜ao dependam ape-nas do passado imediato.

• Estudar a estima¸c˜ao das probabilidades de transi¸c˜ao para cadeias estoc´asticas. • Estudar formas de determina¸c˜ao dos contextos de cadeias estoc´asticas pelo Crit´erio

de Informa¸c˜ao Bayesiano (BIC) e pelo Algoritmo Contexto.

(14)

• Estimar o δ, o crit´erio de decis˜ao do Algoritmo Contexto. Analisar o impacto da sobrestima¸c˜ao e da subestima¸c˜ao de δ para o Algoritmo Contexto. Determinar como encontrar um intervalo de valores poss´ıveis para δ quando a ´arvore de contextos ´e conhecida. Verificar como δ se comporta em fun¸c˜ao das probabilidades de transi¸c˜ao e do tamanho da amostra atrav´es de simula¸c˜oes computacionais.

1.3

Organiza¸

ao

Na Se¸c˜ao 2.1, desta disserta¸c˜ao, aborda-se o conceito de cadeias estoc´asticas de alcance k ≥ 2, em seguida, faz-se inferˆencia sobre suas probabilidades de transi¸c˜ao. Na Se¸c˜ao 2.2 analisa-se a estima¸c˜ao do alcance das cadeias atrav´es do Crit´erio de Informa¸c˜ao Bayesiano (BIC), e o Algoritmo Contexto. Na Se¸c˜ao 2.3 amplia-se o estudo para cadeias de alcance vari´avel atrav´es da defini¸c˜ao de ´arvores de contexto. Na Se¸c˜ao 2.4 aplicam-se o crit´erio BIC e o Algoritmo Contexto para a estima¸c˜ao dos contextos de cadeias de alcance vari´avel. Na Se¸c˜ao 2.5 ´e feita uma breve descri¸c˜ao do modelo de Regress˜ao linear m´ultipla, que ser´a usado posteriormente para predi¸c˜ao de δ. Por fim, no Cap´ıtulo 3 discute-se o delta, um limite superior para a distˆancia entre as probabilidades de transi¸c˜ao, ou seja, a perda m´axima que se pode aceitar, em termos de qualidade na estimativa das probabilidades de transi¸c˜ao, para reduzir o custo, e prop˜oe-se formas de estimar seu valor a partir de algumas premissas.

(15)

2

Materiais e M´

etodos

2.1

Cadeias de alcance k

O estudo de Processos Estoc´asticos nas gradua¸c˜oes em Estat´ıstica das universidades brasileiras aborda o tema Cadeias de Markov, em sua maioria, como sequˆencias cujas probabilidades de transi¸c˜ao dependem de apenas 1 passo no passado. Do ponto de vista probabil´ıstico, uma cadeia de Markov de ordem k ´e uma cadeia de Markov de ordem 1 com um espa¸co de estados apropriado, como ser´a visto na Proposi¸c˜ao 2.1. Por isso, em geral n˜ao se estuda as cadeias de Markov de ordem k. Entretanto, do ponto de vista estat´ıstico, as cadeias de ordem k e ordem 1 s˜ao objetos diferentes. Atrav´es do estudo de cadeias de ordem k e com base em uma amostra, ´e poss´ıvel determinar o k que “melhor” descreve esta amostra. Neste cap´ıtulo, pretende-se definir e estudar as cadeias de ordem k ∈ N.

Defini¸c˜ao 2.1. Seja (Xn)n∈N uma cadeia assumindo valores no espa¸co de estados finito

A, e k um inteiro positivo, diz-se que (Xn)n∈N ´e uma cadeia de mem´oria de alcance k se,

∀ n ≥ k:

P Xn = xn | X0n−1 = x n−1

0  = P Xn= xn | Xn−kn−1 = xn−1n−k , (2.1)

onde Xn

j = xnj ´e uma nota¸c˜ao simplificada para Xn = xn, Xn−1 = xn−1, ..., Xj+1 =

xj+1, Xj = xj, n > j.

A probabilidade de transi¸c˜ao para o pr´oximo estado depende dos ´ultimos k estados da cadeia, mas dispensa qualquer registro anterior a estes. Para cada n, pode-se tamb´em definir Xn como uma fun¸c˜ao dos k passos anteriores e um termo aleat´orio Un, em outras

palavras

Xn= f (Xn−1, Xn−2, ..., Xn−k, Un) ,

onde (Un)n∈N ´e uma sequˆencia de vari´aveis aleat´orias uniformes, independentes e

identi-camente distribu´ıdas (i.i.d.) no intervalo [0, 1].

(16)

ordem 1, a n´ıvel de gradua¸c˜ao. Isto, na verdade, ´e justificado quando nota-se que toda a Cadeia de Markov de ordem k ≥ 2 pode ser interpretada como uma cadeia de ordem 1. Proposi¸c˜ao 2.1. Toda cadeia de alcance k no espa¸co de estados A pode ser reescrita como uma cadeia de alcance 1 em Ak, onde Ak ´e o conjunto de todas as sequˆencias de

s´ımbolos de A de tamanho k.

Seja u = a1a2...ak uma sequˆencia concatenada de elementos ai ∈ A, por exemplo,

u = 0011 ∈ A4´e a concatena¸c˜ao de 0, 0, 1, 1, que s˜ao elementos de A = {0, 1}. Prop˜oe-se demonstrar a Proposi¸c˜ao 2.1. Demonstra¸c˜ao. P (Xn = an|Xn−kn−1 = a n−1 n−k) = P Xn= an, Xn−k+1n−1 = a n−1 n−k+1| X n−1 n−k+1 = a n−1 n−k+1, Xn−k = an−k  = P Xn−k+1n = ann−k+1| Xn−1 n−k = a n−1 n−k .

Tomando un = an−k+1an−k+2...an, un∈ Ak, e Yn= (Xn−k+1, Xn−k+2, ..., Xn), tem-se que

P Xn = an| Xn−kn−1 = a n−1

n−k = P (Yn = un| Yn−1 = un−1),

onde (Yn)n≥k ´e uma cadeia de ordem 1 em Ak.

De forma geral, se (Xn)n≥k ´e uma cadeia de alcance k em A, ent˜ao (Yn)n≥k =

(Xn−k+1, Xn−k+2, ..., Xn)n≥k ´e uma cadeia de alcance 1 em Ak.

A seguir, apresenta-se um exerc´ıcio de aplica¸c˜ao da Proposi¸c˜ao 2.1.

Exemplo 2.1. O exerc´ıcio a seguir exemplifica a transforma¸c˜ao de uma cadeia de ordem k = 2 para uma cadeia de ordem 1.

Seja (Xn)n∈N uma cadeia com mem´oria de alcance 2, assumindo valores no alfabeto

A = {0, 1}, que pode ser simulada atrav´es do seguinte algoritmo: Passo 1. X−2 = 1 e X−1= 0.

Passo 2. Para n ≥ 0, define-se:

Xn=    0, se Un ≤ h (Xn−2, Xn−1) 1, se Un > h (Xn−2, Xn−1)

(17)

onde h(0, 0) = 1/2, h(0, 1) = 1/3, h(1, 0) = 1/4, h(1, 1) = 1/5 e (Un)n≥1 ´e uma sequˆencia

de vari´aveis aleat´orias i.i.d. com distribui¸c˜ao uniforme no intervalo [0, 1]. Pergunta-se:

(i) Qual ´e a matriz de probabilidades de transi¸c˜ao de (Xn)n∈N?

(ii) Definindo (Yn)n∈N= (Xn−1, Xn), qual seria a matriz de transi¸c˜ao para (Yn)n∈N?

Solu¸c˜ao: (i) P = 0 1             00 1/2 1/2 01 1/3 2/3 10 1/4 3/4 11 1/5 4/5 (ii) P∗ = 00 01 10 11             00 1/2 1/2 0 0 01 0 0 1/3 2/3 10 1/4 3/4 0 0 11 0 0 1/5 4/5

portanto, conclui-se que (Yn)n∈N ´e uma cadeia de alcance 1 em A2.

O estudo de cadeias de Markov de ordens k ≥ 2 em A ´e importante, pois permite estimar as probabilidades de transi¸c˜ao em k passos para qualquer k, como ser´a visto na Se¸c˜ao 2.1.1. Isto ´e fundamental porque muitas vezes o valor de k ´e desconhecido, ou seja, o pesquisador n˜ao sabe quantos passos no passado devem ser considerados ao calcular as probabilidades de transi¸c˜ao. Faz-se necess´ario, ent˜ao, estimar um valor para k, mas para isso, primeiro ´e preciso estimar as probabilidades de transi¸c˜ao.

(18)

2.1.1

Inferˆ

encia para cadeias de mem´

oria de alcance k

Seja X−k, X−k+1, ..., Xnuma amostra de uma cadeia de Markov de ordem k, assumindo

valores em A = {0, 1}, com matriz de transi¸c˜ao P dada por P = p(a|u) | a ∈ A, u ∈ Ak ,

a fun¸c˜ao de m´axima verossimilhan¸ca para esta amostra pode ser escrita como Lk an−k, p = P X−k = a−k, X−(k−1)= a−(k−1), ..., Xn= an = P X−kn = an−k



onde denota-se an

m a sequˆencia amam+1...an−1an de comprimento n − m + 1.

Pelo teorema de Bayes tem-se que P (X−kn =an−k) = P Xn = an| X−kn−1= a n−1 −k  P X n−1 −k = a n−1 −k  =P Xn= an|X−kn−1= an−1−k  P Xn−1= an−1|X−kn−2= an−2−k  P X−kn−2 = an−2−k  =P Xn= an| X−kn−1 = a n−1 −k  × P Xn−1= an−1| X−kn−2= a n−2 −k  · · · P X0 = a0| X−k−1 = a −1 −k P X −1 −k = a −1 −k .

Assumindo que P X−k−1 = a−1−k = 1 tem-se que

Lk an−k, p = n Y i=0 P Xi = ai|X−ki−1= a i−1 −k .

Seja N (ua) ´e o n´umero de vezes em que a sequˆencia ua ocorreu na amostra,

N (ua) =

n

X

i=0

IXi−ki−1= u, Xi = a , (2.2)

pode-se reescrever a fun¸c˜ao de m´axima verossimilhan¸ca como Lk an−k, p = Y a∈A Y u∈Ak p (a|u)N (ua). (2.3)

Exemplo 2.2. Suponha que u = 010, a = 0 e a amostra ´e (ai)10i=0 = 01000101001 ent˜ao,

temos que N (ua) = 2.

0100 | {z } 1 01 0100 | {z } 2 1

(19)

Atrav´es da fun¸c˜ao de m´axima verossimilhan¸ca, pode-se encontrar as probabilidades de transi¸c˜ao estimadas que maximizam a chance da amostra ocorrer

 ˆp (a|u) | a ∈ A, u ∈ Ak , respeitando a condi¸c˜ao X

a∈A

ˆ

p (a|u) = 1.

Para simplificar o c´alculo utiliza-se a fun¸c˜ao de log verossimilhan¸ca definida como Lk an−k, p =

X

a∈A

X

u∈Ak

N (ua) log p (a|u). (2.4)

Aplica-se o m´etodo dos multiplicadores de Lagrange. Sejam λ = (λu)u∈Ak, λu ∈ R e F (λ, p) definida por

F (λ, p) = X

u∈Ak

( X

a∈A

N (ua) log p(a|u) + λu

" 1 −X a∈A p(a|u) #) ,

derivando-se F (λ, p) em rela¸c˜ao `a λu e iguando a zero, tem-se que

∂ ∂λu F (λ, p) = 1 −X a∈A p(a|u) ⇒ 1 −X a∈A p(a|u) = 0. (2.5)

Em seguida, deriva-se F (λ, p) em rela¸c˜ao `a p(a|u) para todo a ∈ A, u ∈ Ak e, ao iguala-las a zero, tem-se que

∂ ∂p(a|u)F (λ, p) = N (ua) p(a|u) − λu ⇒ ˆp(a|u) = N (ua) λu . (2.6)

De (2.5) e (2.6) pode-se verificar que X b∈A N (ub) λu = 1 ⇒X b∈A N (ub) = λu. (2.7)

Por (2.2) sabe-se que X b∈A N (ub) =X b∈A n X i=0 IXi−ki−1= u, Xi = b , como X b∈A I {Xi = b} = 1 ∀ i, tem-se que X b∈A N (ub) = n X i=0 IXi−ki−1= u ,

(20)

que pode ser interpretado como: quantas vezes u apareceu na amostra desconsiderando-se o n-´esimo elemento.

Por fim, de (2.6) e (2.7) tem-se que ˆ

p(a|u) = XN (ua)

b∈A

N (ub)

, (2.8)

ou seja, a probabilidade de a ocorrer, dado que u ocorreu, que maximiza a fun¸c˜ao de verossimilhan¸ca, ´e uma propor¸c˜ao de quantas vezes ua apareceu na amostra em rela¸c˜ao a u. Defina ˆp(a|u) = 0 se X

b∈A

N (ub) = 0.

Exemplo 2.3. Para esclarecer a forma como ˆp(a|u) ´e calculada, pode-se utilizar a amostra do Exemplo 2.2. 1 z}|{ 010 0 2 z}|{ 01 0 10 |{z} 3 01

Verifica-se que u = 010 ocorre 3 vezes mas sabe-se que ua = 0100 ocorreu 2 vezes. Portanto, a probabilidade estimada ˆp(a|u) = 2/3.

(GALVES; LEONARDI, 2007) mostraram que ˆp(a|u)−q.c.−→ p(a|u). Uma vez que con-vergˆencia quase certa implica convergˆencia em probabilidade, tem-se que este ´e um esti-mador consistente.

Foi visto como estimar as probabilidades de transi¸c˜ao a partir de uma amostra e sua fun¸c˜ao de verossimilhan¸ca. A seguir, um exemplo onde a fun¸c˜ao de m´axima verossimi-lhan¸ca ´e calculada a partir das estimativas das probabilidades de transi¸c˜ao.

Exemplo 2.4. Seja X1, X2, ..., X100 uma amostra aleat´oria no espa¸co de estados A =

{0, 1} onde N (0) = 51, N (1) = 49 e o n´umero de ocorrˆencias das sequˆencias de tamanho 2 e 3 foi registrado, respectivamente, conforme as tabelas abaixo:

a0 N (a0, 0) N (a0, 1) 0 16 35 1 35 13 a0 a1 N (a0, a1, 0) N (a0, a1, 1) 0 0 5 11 0 1 26 9 1 0 11 24 1 1 8 4

(21)

(i) Estime as matrizes de probabilidades de transi¸c˜ao de alcance 0 (caso independente), 1 e 2 que maximizam a verossimilhan¸ca da amostra.

(ii) Escreva explicitamente as f´ormulas para o maior valor que a verossimilhan¸ca da amostra pode assumir, supondo que ela seja produzida por uma cadeia de Markov de alcance 0, 1 e 2, supondo que X1 = 1 e X2 = 0 com probabilidade 1.

Solu¸c˜ao: • k = 0 ˆ p(0) = N (0) N (0) + N (1) = 51 100 ˆ p(1) = N (1) N (1) + N (0) = 49 100 Fun¸c˜ao de m´axima verossimilhan¸ca:

L0(x1001 , p) =  51 100 51 49 100 49 • k = 1 ˆ p(0|0) = N (00) N (00) + N (01) = 16 51 ˆ p(1|0) = 1 − ˆp(0|0) = N (01) N (00) + N (01) = 35 51 ˆ p(0|1) = N (10) N (10) + N (11) = 35 48 ˆ p(1|1) = 1 − ˆp(0|1) = N (11) N (10) + N (11) = 13 48 Fun¸c˜ao de m´axima verossimilhan¸ca:

L1(X1100, p) =  16 51 16 35 51 35 35 48 35 13 48 13 p(X1 = 1) ⇒ L1(X1100, p) =  16 51 16 35 51 35 35 48 35 13 48 13

(22)

• k = 2 ˆ p(0|00) = N (000) N (000) + N (001) = 5 16 ˆ p(1|00) = 1 − ˆp(0|00) = N (001) N (000) + N (001) = 11 16 ˆ p(0|01) = N (010) N (010) + N (011) = 26 35 ˆ p(1|01) = 1 − ˆp(0|01) = N (011) N (010) + N (011) = 9 35 ˆ p(0|10) = N (100) N (100) + N (101) = 11 35 ˆ p(1|10) = 1 − ˆp(0|10) = N (101) N (101) + N (100) = 24 35 ˆ p(0|11) = N (110) N (110) + N (111) = 8 12 ˆ p(1|11) = 1 − ˆp(0|11) = N (111) N (110) + N (111) = 4 12 Fun¸c˜ao de m´axima verossimilhan¸ca:

L2(x1001 , p) =  5 16 5 11 16 11 26 35 26 9 35 9 11 35 11 24 35 24 8 12 8 4 12 4 × p(X2 = 0, X1 = 1) ⇒ L2(x1001 , p) =  5 16 5 11 16 11 26 35 26 9 35 9 11 35 11 24 35 24 8 12 8 4 12 4

Observe que, dada uma amostra, ´e poss´ıvel estimar as probabilidades de transi¸c˜ao para qualquer k que seja suficientemente menor que n, assim como a fun¸c˜ao de m´axima verossimilhan¸ca. Note que, para k = 1, foi necess´ario estimar duas probabilidades, ˆp(0|0) e ˆp(0|1), uma vez que as demais s˜ao complementares. J´a no caso de k = 2 s˜ao necess´arias 4 estimativas, para k = 3, 8 estimativas. De forma geral, um processo de mem´oria k = k0, quando o n´umero de elementos em A ´e igual a dois, precisar´a de 2k0 estimativas

(23)

de probabilidade para encontrar sua fun¸c˜ao de m´axima verossimilhan¸ca. Isto gera um aumento exponencial do custo operacional a medida que k aumenta.

2.2

Estima¸

ao do alcance de uma cadeia

Quanta “mem´oria” deve-se incorporar `a an´alise para obter a melhor estimativa das probabilidades de transi¸c˜ao? Pode-se pensar que “quanto mais informa¸c˜ao melhor” e tentar contemplar todos os dados dispon´ıveis, mas o custo operacional desta op¸c˜ao pode, por vezes, suplantar o ganho de qualidade na estima¸c˜ao. Ent˜ao, como identificar o valor de k que, ao mesmo tempo, gera boas estimativas de probabilidades de transi¸c˜ao e n˜ao onera tanto a pesquisa? Veja a seguir dois modelos que prop˜oem formas de estima¸c˜ao da ordem de uma cadeia.

2.2.1

Crit´

erio de Informa¸

ao Bayesiano (BIC)

Seja |A| o n´umero de elementos em A, o crit´erio BIC ´e um m´etodo utilizado para encontrar a ordem de uma amostra de tamanho n, gerada a partir de uma cadeia de Markov de alcance k desconhecido, com cardinalidade |A| < ∞.

O BIC encontra o ˆk que minimiza a soma da fun¸c˜ao de log-verossimilhan¸ca negativa de k-´esima ordem com um termo de penalidade |A|k(|A|−1) log n2 . De acordo com (CSISZAR; SHIELDS, 1999), a fun¸c˜ao BIC pode ser definida por

BIC(k, xn1) = − log (Lk(xn1, p)) +

|A|k(|A| − 1) log n

2 , (2.9)

para todo k ≤ l onde l ´e de ordem log n. O estimador da ordem k de uma cadeia, obtido pelo m´etodo BIC, ´e definido como

ˆ

kBIC(xn1) = arg min {BIC(k, X n

1)} (2.10)

Exemplo 2.5. Utilizando a amostra e os resultados do Exerc´ıcio 2.4 aplique o crit´erio BIC para encontrar a ordem da cadeia.

Solu¸c˜ao:

´

E necess´ario calcular o ˆkBIC(xn0) para k = 0, 1, 2 e encontrar qual o k que gera o menor

(24)

BIC(0, x1001 ) = − log  51 100 51 49 100 49! +|2| 0(|2| − 1) log 100 2 , portanto, BIC(0, x1001 ) = 71,6 BIC(1, x1001 ) = − log  16 51 16 35 51 35 35 48 35 13 48 13! + |2| 1(|2| − 1) log 100 2 , portanto, BIC(1, x1001 ) = 64,4 BIC(2, x1001 ) = − log  5 16 5 11 16 11 26 35 26 9 35 9 11 35 11 24 35 24 8 12 8 4 12 4! +|2| 2(|2| − 1) log 100 2 , portanto, BIC(2, x1001 ) = 68,5

Pode-se observar que, quando k = 1, obtˆem-se o menor BIC, ent˜ao ˆkBIC(x1001 ) = 1.

Conclui-se que a amostra pertence a uma Cadeia de Markov de ordem 1.

2.2.2

Algoritmo Contexto

Este m´etodo prop˜oe comparar as probabilidades estimadas para algum k com as estimadas para k +1, e determinar se elas s˜ao suficientemente pr´oximas. Em caso positivo, considera-se que n˜ao existe ganho preditivo em usar o alcance maior. Em outras palavras, o algoritmo contexto consiste em testar sequencialmente a hip´otese

H0 : p(k+1)(a|u−1−k−1) = p(k)(a|u −1 −k),

at´e que esta n˜ao seja satisfeita para algum valor de k.

A partir de uma amostra aleat´oria X1, X2, ..., Xnde uma cadeia de Markov de ordem

(25)

Algoritmo:

1. Toma-se um δ > 0, d = blog|A|2 nc, k = d − 1 e constr´oi-se a ´arvore completa at´e n´ıvel d conforme a Figura 2. 0 ←−−→ 1 111 011 101 001 110 010 100 000 0 1 00 10 01 11

Figura 2: ´Arvore completa para d = 3 e A = {0, 1}

Vale ressaltar que os valores em cinza na Figura 2 n˜ao devem aparecer na repre-senta¸c˜ao de uma ´arvore de contextos irredut´ıvel, conforme ser´a visto na Defini¸c˜ao 2.3.3, mas foram utilizados aqui a fim de esclarecer o que representam as interse¸c˜oes na ´arvore, tamb´em chamadas de “n´os”. Observe que, conforme a ´arvore cresce, acrescenta-se um elemento `a esquerda das sequencias, ou seja, aumentar um n´ıvel na ´arvore significa adicionar mais um elemento do passado.

2. Para cada sequˆencia uj ∈ Ak calcula-se:

∆(uj) = max

b∈A maxa∈A { |ˆp(a|uj) − ˆp(a|buj)| } , j = 1, ..., |A| k.

3. Se max

uj∈Ak

{∆(uj)} < δ, descarta-se o n´ıvel k + 1 da ´arvore. Defini-se k = k − 1 e

repete-se o algoritmo a partir do passo 2. Caso contr´ario, defini-se ˆk = k + 1, ou seja,

ˆ

k = max 

k | max

uj∈Ak−1

{∆(uj)} ≥ δ, 0 ≤ k ≤ log|A|n

 .

A seguir, prop˜oe-se um exemplo de aplica¸c˜ao do algoritmo contexto.

Exemplo 2.6. Suponha que quer-se testar, pelo m´etodo do algoritmo contexto, o alcance da cadeia no Exemplo 2.4.

1. Toma-se δ = 0,1, d = blog2100c = 2 e constr´oi-se a ´arvore completa at´e o n´ıvel d = 2, conforme a Figura 3 abaixo.

(26)

0 ←−−→ 1

00 10 01 11

Figura 3: ´Arvore completa para d = 2 e A = {0, 1} 2. Toma-se k = 1, ent˜ao uj ∈ A, ou seja uj = {0, 1}.

∆(0) =

max {|ˆp(0|0) − ˆp(0|00)|, |ˆp(0|0) − ˆp(0|10)|, |ˆp(1|0) − |ˆp(1|00)|, |ˆp(1|0) − ˆp(1|10)|}

Veja que

ˆ

p(0|0) − ˆp(0|00) = − [ˆp(1|0) − ˆp(1|00)] , uma vez que

− [ˆp(1|0) − ˆp(1|00)] = − {1 − ˆp(0|0) − [1 − ˆp(0/00)]} = ˆp(0|0) − ˆp(0|00). O mesmo vale para ˆp(0|0) − ˆp(0|10) = − [ˆp(1|0) − ˆp(1|10)], portanto, para calcular o m´aximo em valor absoluto, torna-se desnecess´ario considerar as quatro diferen¸cas. Para exemplificar numericamente,

∆(0) = max  16 51− 5 16 , 16 51− 11 35 , 35 51− 11 16 , 35 51− 24 35  = = max {|0,00123|, | − 0,00056|, | − 0,00123|, |0,00056|} = = max {0,00123, 0,00056} = 0,00123. Analogamente, ∆(1) = max {|ˆp(0|1) − ˆp(0|01)|, |ˆp(0|1) − ˆp(0|11)|} ∆(1) = max  35 48− 26 35 , 35 48− 8 12  = = max {| − 0,01369|, |0,0625|} = 0,0625

3. Veja que max {0,00123, 0,0625} = 0,0625 < δ = 0,1, portanto, “poda-se” o n´ıvel k + 1 = 2. Agora, toma-se k = 0 e precisa-se repetir o processo para testar se a ordem k + 1 ´e mais adequada que k.

(27)

2.3

Cadeias de Alcance Vari´

avel

O conceito de cadeia de alcance vari´avel foi apresentado por (RISSANEN, 1983) para definir cadeias onde o valor de k pode variar de acordo com a relevˆancia da informa¸c˜ao passada contida na cadeia, o contexto. A seguir, ser˜ao abordados alguns exemplos mo-tivacionais para esse estudo, bem como alguns conceitos b´asicos para compreens˜ao de cadeias com alcance vari´avel.

Exemplo 2.7. Exemplo motivacional 1:

Ser´a visto neste exemplo que, dependendo de como a cadeia ´e definida, o valor de k pode variar de acordo com os valores observados na amostra.

Seja (Xn)n≥0 uma cadeia de Markov de ordem k = 1 no alfabeto A = {0, 1}, com

matriz de transi¸c˜ao P , e (Yn)n≥0 um processo de Bernoulli de parˆametro p independente

de (Xn)n≥0. Define-se o processo (Zn)n≥0 como Zn = XnYn para todo n ≥ 0.

Consequentemente, Zn =    1, se Xn = 1 e Yn = 1 0, se Xn = 1 e Yn = 0, ou Xn= 0 e Yn= 0, ou Xn= 0 e Yn= 1.

Observe que, dada uma amostra Z1, Z2, ..., Zn, se Zi = 0, n˜ao se pode afirmar nada

sobre os valores de Xi e Yi. Ou seja, olhando apenas um passo no passado, s´o ´e poss´ıvel

determinar a distribui¸c˜ao de Zn+1 quando Zn= 1.

P (Zn+1= 1|Zn= 1) =P (Yn+1 = 1)P (Xn+1 = 1|Xn= 1) = pP (Xn+1 = 1|Xn= 1)

P (Zn+1= 0|Zn= 1) =pP (Xn+1 = 0|Xn= 1) + (1 − p)P (Xn+1 = 0|Xn= 1)

+(1 − p)P (Xn+1 = 1|Xn= 1)

J´a em um cen´ario onde Zn= 0, n˜ao ´e poss´ıvel determinar as probabilidades de transi¸c˜ao

para Zn+1, pois n˜ao h´a como determinar se o valor de Xn ´e 1 ou 0.

Nota-se que se Zn = 1 basta que k seja igual a 1, mas se Zn = 0 ´e preciso observar

(28)

A seguir, pode-se verificar que se Zn−i+1n = 0 e Zn−i = 1, 0 < i < n, ent˜ao k = i + 1.

P (Zn+1 = 1|Zn−i+1n = 0, Zn−i= 1) = P (Yn+1 = 1)P (Xn+1 = 1|Xn−i+1n = a, Xn−i= 1)

= pP (Xn+1 = 1|Xn−i= 1)

pela equa¸c˜ao de Chapman-Komolgorov

P (Zn+1 = 1|Zn−i+1n = 0, Zn−i= 1) = p " 1 X j=0 P (Xn+1 = 1|Xn= j)Pi(Xn = j|Xn−i = 1) #

Nesse caso ´e preciso contemplar as ´ultimas i + 1 observa¸c˜oes na amostra para encontrar as probabilidades de transi¸c˜ao, portanto k = i + 1. Veja na Figura 4 a representa¸c˜ao da ´

arvore de contexto para esse exemplo.

Conclui-se que o alcance da cadeia (Zn)n≥0 varia de acordo com o ´ultimo valor 1

observado. 0 ←−−→ 1 1 10 100 1000 ...

Figura 4: ´Arvore de contextos para Zn.

Exemplo 2.8. Exemplo motivacional 2:

(GALVES; L ¨OCHERBACH, 2012) apresentaram um modelo probabil´ıstico para re-presentar a atividade em um conjunto de neurˆonios I. Considerando que, a probabilidade de disparo de um neurˆonio i ∈ I depende da atividade acumulada em todo o conjunto I, desde o ´ultimo disparo de i, pode-se pensar o comportamento de um neurˆonio no tempo como um processo estoc´astico com mem´oria de alcance vari´avel.

Suponha um sistema com 3 neurˆonios que apresentam o seguinte comportamento:

• Cada vez que um neurˆonio transmite um impulso nervoso, ele espalha energia pelos demais neurˆonios.

(29)

• A probabilidade de um neurˆonio disparar em um instante n depende da quantidade de energia acumulada at´e o instante n − 1.

• Os neurˆonios disparam no instante n de forma independente. • Ao disparar, o neurˆonio zera sua energia acumulada.

Seja I = {1, 2, 3} o conjunto de neurˆonios, e, para i ∈ I

Xn(i) =

 

0, se o i-´esimo neurˆonio n˜ao disparou no instante n 1, se o i-´esimo neurˆonio disparou no instante n

Define-se o processo Yn=



Xn(1), Xn(2), Xn(3)



para todo n.

Seja q(i) o n´umero de disparos de todos os neurˆonios desde a ´ultima vez que o neurˆonio i disparou. Pode-se supor que

P (Xn+1(i) = a|Y1n) = " 1 − 1 2 q(i)+1#a" 1 2 q(i)+1#1−a , a = {0, 1} , portanto, P (Xn+1(i) = 1|Y1n) = 1 −  1 2 q(i)+1 .

Sob esta hip´otese, a probabilidade de um neurˆonio disparar aumenta a medida que os vizinhos disparam, mas ainda existe 50% de chance de um neurˆonio disparar mesmo que n˜ao haja influˆencia dos demais (q(i) = 0).

A Figura 5 contˆem uma amostra y1, y2, ..., y10 do sistema com 3 neurˆonios, a partir

deste, pretende-se calcular as probabilidades de transi¸c˜ao.

n Yn 1 2 3 4 5 6 7 8 9 10 Xn(3) Xn(2) Xn(1) 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0

(30)

Sabe-se que P Y11= (a, b, c)|Y110 = y 10 1  = P X11(1) = a, X11(2) = b, X11(3) = c|Y110 = y 10 1 

dada a amostra, os disparos dos neurˆonios em n + 1 s˜ao independentes, portanto P Y11 = (a, b, c)|Y110= y 10 1  =P X11(1) = a|Y110= y 10 1 P X11(2) = b|Y110 = y 10 1  × P X11(3) = c|Y110 = y101 .

Analisando separadamente tem-se que P X11(1) = 1|Y110= y 10 1  = P X11(1) = 1|Y710 = y 10 7  = 0,5 P X11(2) = 1|Y110= y 10 1  = P X11(2) = 1|Y510 = y 10 5  = 1 −  1 2 (2+1) = 0,875 P X11(3) = 1|Y110= y 10 1  = P X11(3) = 1|Y210 = y 10 2  = 1 −  1 2 (5+1) = 0,984 Portanto, P (Y11= 111|Y110 = y 10 1 ) = P (Y11 = 111|Y210= y 10 2 ) = 0,43.

Para esta amostra, foi necess´ario olhar k = 9 passos no passado para encontrar as probabilidades de transi¸c˜ao. Mas, se por exemplo, X5(3) = 1, ent˜ao k seria igual a 6.

Fica claro que existem cadeias cujo alcance pode variar de acordo com as realiza¸c˜oes passadas. Para compreens˜ao dessas cadeias, ser´a necess´aria a introdu¸c˜ao de algumas novas defini¸c˜oes.

2.3.1

Conceitos b´

asicos

Seja AN o conjunto de todas as sequˆencias finitas de elementos de A, ou seja

AN=

[

k=1

A{−k,...,−1}

e A∞ = A{...,−n,...,−2,−1} o conjunto de todas as sequˆencias semi-infinitas de s´ımbolos de A. Denota-se A∗ = AN∪ A.

Sejam duas sequˆencias u e v, onde u ∈ A∗ e v ∈ AN, denota-se uv como a sequˆencia

resultante da concatena¸c˜ao de u e v.

(31)

se u−1−j = v−j−1. Ou seja, se u = u−ku−k+1...u−j−1v−j...v−1, ent˜ao v ≺ u.

Exemplo 2.9. A seguir alguns exemplos de sufixo. Se u = 011011100111001110 e v = 01110 ent˜ao u = 011v, v ≺ u.

Se u = 0111011 e v = 111, ent˜ao u 6= 0111v, v n˜ao ´e sufixo de u.

Se u = 0001001001 e v = 001 ent˜ao u = 0v, v ≺ u. Nota-se ainda que v ´e o maior sufixo poss´ıvel de u.

Defini¸c˜ao 2.3.2. Seja u = u−1−k define-se suf(u) = u−1−k+1, o maior sufixo de u. suf(u−1−k) = u−1−k+1

Defini¸c˜ao 2.3.3. Um subconjunto τ de sequˆencias de elementos de A ´e uma ´arvore irredut´ıvel se satisfaz `as seguintes condi¸c˜oes (RODRIGUES, 2016):

1. A ´arvore possui propriedade de sufixo, isto ´e, se u ∈ τ , ent˜ao nenhum sufixo de u pertence a τ .

2. A ´arvore ´e irredut´ıvel, isto ´e, nenhum elemento de τ pode ser substitu´ıdo por um sufixo sem violar a propriedade de sufixo.

Em uma representa¸c˜ao gr´afica de ´arvore irredut´ıvel os elementos de τ ficam nas “fo-lhas” e est˜ao ligados a “n´os” correspondentes a seus sufixos.

Exemplo 2.10. Verifique se as ´arvores apresentadas a seguir s˜ao irredut´ıveis. τ1 = {0, 00, 10, 1} τ2 = {00, 01, 11} τ3 = {00, 10, 1} τ1 0 ←−−→ 1 1 0 10 00 τ 2 0 ←−−→ 1 11 01 00 τ 3 0 ←−−→ 1 1 10 00 Figura 6: Exemplos de ´arvores.

(32)

1. τ1: Veja que 0 ´e sufixo de 00 e 10, ent˜ao h´a viola¸c˜ao da propriedade de sufixo, τ1

n˜ao ´e uma ´arvore irredut´ıvel.

2. τ2: Veja que 00 poderia ser substitu´ıdo por seu sufixo 0, uma vez que 10 n˜ao ´e um

contexto. Portanto, a ´arvore n˜ao ´e irredut´ıvel.

3. τ3: Nenhum contexto pode ser substitu´ıdo por um sufixo, e nenhum elemento da

´

arvore ´e sufixo de outro, portanto, esta ´e uma ´arvore irredut´ıvel.

Defini¸c˜ao 2.3.4. Seja τ uma ´arvore irredut´ıvel, defini-se τ |k como a ´arvore truncada no

n´ıvel k, ou seja,

τ |k= {v ∈ τ | |v| ≤ k} ∪v ∈ Ak | v ≺ u para todo u ∈ τ tal que |u| > k

onde |v| ´e o comprimento de v, ou seja, o n´umero de elementos de A na sequˆencia v. Exemplo 2.11. A ´arvore τ = {0000, 1000, 0101, 1101, 100, 001, 10, 11}, representada na Figura 7, ´e irredut´ıvel e de alcance vari´avel. Deseja-se truncar a ´arvore em k = 3.

0 ←−−→ 1 11 1101 0101 001 10 100 1000 0000

Figura 7: Exemplo de ´arvore irredut´ıvel τ .

Primeiro, deve-se repetir qualquer contexto de comprimento menor ou igual a 3, s˜ao eles: 100, 001, 10, 11. Em seguida, deve-se identificar os elementos de τ cujo comprimento ´e maior que 3 ( 0000, 1000, 0101, 1101), e extrair destes seus sufixos de tamanho 3, (000, 101). Finalmente, a ´arvore truncada em k = 3 ser´a τ |3 = {000, 100, 001, 101, 10, 11},

con-forme a Figura 8.

Defini¸c˜ao 2.3.5. Sejam τ1 e τ2 duas ´arvores finitas, define-se τ1 ≺ τ2 se τ1 6= τ2, e para

(33)

0 ←−−→ 1 11 101 001 10 100 000

Figura 8: ´Arvore da Figura 7 truncada em k = 3, τ |3.

1. u ∈ τ2.

2. ∃ v ∈ τ2 tal que u ≺ v.

A defini¸c˜ao segue de forma an´aloga para τ1  τ2.

Defini¸c˜ao 2.3.6. O par (τ, P ) ´e uma ´arvore probabil´ıstica de contextos em A, se:

1. τ ´e uma ´arvore de contextos irredut´ıvel.

2. P = {p(.|v) : v ∈ τ } ´e uma fam´ılia de probabilidades de transi¸c˜ao em A.

Defini¸c˜ao 2.3.7. Uma sequˆencia v de elementos de A ´e um contexto do processo esta-cion´ario (Xn)n∈N se p(v) > 0 e se

1. Para toda sequˆencia u de elementos de A tal que v ≺ u, tem-se que P (Xn = a|Xm−|u|n−1 = u) = p(a|v), para todo a ∈ A, n ∈ N.

Nesse caso, diz-se tamb´em que v ´e o contexto da sequˆencia u para o processo (Xn)n∈N.

2. Para toda sequˆencia w de elementos de A tal que w ≺ v, w n˜ao satisfaz 1.

Defini¸c˜ao 2.3.8. O processo (Xn)n>0, definido no alfabeto A, ´e uma cadeia com mem´oria

de alcance vari´avel compat´ıvel com (τ, P ) se

• v ∈ τ ⇔ v ´e um contexto para (Xn)n∈N.

(34)

Exemplo 2.12. Seja (Xn)n≥0 uma cadeia com matriz de probabilidades de transi¸c˜ao definida por P = 0 1             00 1/3 2/3 10 1/3 2/3 01 1/5 4/5 11 1/2 1/2 (2.11)

Dada uma amostra X1, X2, ..., Xn, se Xn= 0 n˜ao ´e necess´ario olhar para Xn−1 para

determinar as probabilidade de transi¸c˜ao para Xn+1.

P (Xn+1 = xn+1|Xn= 0, Xn−1= xn−1) = P (Xn+1 = xn+1|Xn= 0)

p(0|0) = 1

3 p(1|0) = 2 3

Contudo, quando Xn= 1 ´e necess´ario olhar um passo a mais no passado para determinar

as probabilidades de transi¸c˜ao. Logo, sejam

τ = {0, 01, 11}

P = {p(a|u) : a ∈ A, u ∈ τ } = {p(0|0), p(1|0), p(0|01), p(1|01), p(0|11), p(1|11)} (Xn)n≥0 ´e uma cadeia com mem´oria de alcance vari´avel compat´ıvel com (τ, P ).

2.4

Estima¸

ao de ´

arvores de contextos

Definiu-se na se¸c˜ao anterior que, uma cadeia de alcance vari´avel no alfabeto A ´e definida pela dupla (τ, P ). Nesta se¸c˜ao, pretende-se mostrar que os dois m´etodos j´a estu-dados, para estima¸c˜ao do alcance de uma cadeia, podem ser utilizados para a estima¸c˜ao da ´arvore de contextos τ .

2.4.1

Crit´

erio de Informa¸

ao Bayesiano (BIC)

Dado uma amostra xn

1 compat´ıvel com uma ´arvore de contextos τ0, (CSISZAR;

TA-LATA, 2006) propuseram uma forma consistente de estimar τ0 pelo m´etodo BIC.

(35)

mais se ad´equa `a amostra, considerando o custo de aumentar o n´umero de parˆametros. Seja |τ | o n´umero de elementos em τ , o BIC para uma poss´ıvel ´arvore de contextos ser´a

BIC(τ, xn1) = − log L(τ, xn1) + (|A| − 1)|τ |

2 log n

onde L(τ, xn

1) ´e a m´axima verossimilhan¸ca da amostra quando considera-se uma ´arvore

de contextos τ , em que todo u ∈ τ ocorre na amostra pelo menos uma vez, L(τ, xn1) = Y

u∈τ,N (u)≥1

Y

a∈A

p(a|u)N (ua).

De acordo com (CSISZAR; TALATA, 2006), se τ0 ´e finita, ent˜ao

ˆ

τBIC = arg min BIC(τ, xn1),

para τ ∈ τD = {τ |d(τ ) ≤ D(n)} onde d(τ ) ´e a profundidade de τ , ou seja, o tamanho do

maior elemento de τ , e D(n) est´a em escala log n.

Eles provam que ˆτBIC = τ0 eventualmente, quase certamente, quando n → ∞.

Outro resultado, importante para possibilitar o estudo de cadeias de mem´oria infinita, ´e que, sob certas condi¸c˜oes, a ´arvore de contextos estimada, truncada em k, ´e igual `a ´arvore real truncada em k, quase certamente, quando n tende a infinito. Em outras palavras

ˆ τBIC|k

q.c.

−−→ τ0|k.

Exemplo 2.13. Dada uma amostra x1, x2, ..., xn, com n = 1000 de uma cadeia

es-toc´astica, no alfabeto A = {0, 1}, gerada a partir de um matriz de transi¸c˜ao

P = 00 01 10 11             00 0,2 0,8 0 0 10 0,6 0,4 0 0 01 0 0 0,4 0,6 11 0 0 0,8 0,2

Gostaria-se de verificar se o m´etodo do BIC realmente identifica a ´arvore de contextos τ0 = {00, 01, 10, 11}, compat´ıvel com x10001 .

Foi feita uma listagem de todas as ´arvores de contextos poss´ıveis at´e o n´ıvel d = 3, e elas foram ordenadas de acordo com sua cardinalidade |τ |, conforme a Tabela 1.

(36)

|τ | = 2 |τ | = 3 |τ | = 4 ... |τ | = 8 {0, 1} {0, 01, 11} {00, 10, 01, 11} {000, 100, 010, 110, 001, 101, 011, 111} {00, 10, 1} {000, 100, 10, 1} {00, 010, 110, 1} {0, 01, 011, 111} {0, 001, 101, 11}

Tabela 1: Listagens de ´arvores de contextos por cardinalidade

A seguir, foi calculado o log negativo da verossimilhan¸ca para cada ´arvore, e o re-sultado foi plotado no gr´afico da Figura 9. Observe que esses valores ainda n˜ao foram penalizados pelo n´umero de parˆametros, assim, o menor valor ser´a sempre relativo `a ´arvore que tiver o maior n´umero de contextos. Afinal, quanto mais informa¸c˜ao do passado melhor quando n˜ao h´a nenhum custo operacional. Em vermelho, destacou-se o ponto relativo `a τ0.

J´a no gr´afico da Figura 10 introduz-se o termo de penaliza¸c˜ao, veja que o menor BIC ´e, conforme desejado, referente `a τ0.

2 3 4 5 6 7 8 600 620 640 660 680 |τ | − log L (τ ,X )

(37)

2 3 4 5 6 7 8 600 620 640 660 680 |τ | BIC( τ ,X )

Figura 10: BIC para τ .

2.4.2

Algoritmo Contexto

O algoritmo contexto prop˜oe testar se olhar um passo a mais no passado altera subs-tancialmente as probabilidades de transi¸c˜ao, pois sabe-se que invariavelmente aumenta o custo operacional. No caso de cadeias de alcance vari´avel, n˜ao ´e necess´ario manter todo um n´ıvel da ´arvore se apenas alguns dos contextos s˜ao mais adequados que seus sufixos. Manter apenas os contextos necess´arios ´e uma forma de reduzir o n´umero de parˆametros e, portanto, o custo.

Inicialmente, o algoritmo contexto para amostras produzidas por cadeias de alcance vari´avel ´e igual ao algoritmo para amostras de ordem k. Considera-se uma ´arvore completa at´e o n´ıvel d, e analisa-se as probabilidades de transi¸c˜ao, verificando-se se s˜ao suficiente-mente pr´oximas. A diferen¸ca aqui ´e que, ao inv´es de comparar todas as probabilidades do n´ıvel k + 1 com as do n´ıvel k, analisa-se n´o a n´o da ´arvore de contextos, comparando as probabilidades entre as folhas e seus respectivos n´os e, caso sejam suficientemente pr´oximos, podam-se apenas as folhas referentes ao n´o analisado.

Seja X1, X2, ..., Xn uma amostra aleat´oria de uma cadeia de alcance vari´avel

(38)

Algoritmo:

1. Toma-se δ > 0, d = blog|A|nc e k = d − 1. Constr´oi-se a ´arvore completa at´e o n´ıvel d, conforme a Figura 11. 0 ←−−→ 1 1111 0111 1011 0011 1101 0101 1001 0001 1110 0110 1010 0010 1100 0100 1000 0000

Figura 11: ´Arvore completa para d = 4 e A = {0, 1}

2. Para todos os n´os do n´ıvel k que n˜ao possuem nenhuma folha associada a um s´ımbolo T , verifica-se se as probabilidades de transi¸c˜ao s˜ao suficientemente pr´oximas.

max

b∈A maxa∈A {|p(a|bu) − p(a|u)|} ≤ δ, u ∈ A k.

Em caso positivo, podam-se as folhas. Em caso negativo, atribui-se `aquele n´o um s´ımbolo T . Se todos os n´os tiverem folhas associadas ao s´ımbolo T , encerre o algoritmo.

3. Os n´os do n´ıvel k que j´a possu´ıam alguma folha associada ao s´ımbolo T tamb´em recebem o s´ımbolo T .

4. Toma-se k = k − 1, se k > 0 repete-se o procedimento a partir do passo 2.

Ao final desse processo, uma vez eliminados todos os s´ımbolos T utilizados, ser´a obtida a ´arvore de contextos irredut´ıvel.

Exemplo 2.14. Aplica¸c˜ao do algoritmo acima para encontrar τ0 sem atribuir valores `as

probabilidades de transi¸c˜ao.

Seja d = 4, ent˜ao k = 3. Veja que, a princ´ıpio, nenhuma folha est´a associada ao s´ımbolo T , portanto, deve-se compara as probabilidades de transi¸c˜ao para todos os n´os.

Para o primeiro n´o, suponha que |p(0|000) − p(0|0000)| < |p(0|000) − p(0|1000)| < δ, conclui-se que as probabilidades de transi¸c˜ao s˜ao pr´oximas o suficiente, portanto, poda-se as folhas referentes ao n´o 000. O mesmo ocorre para o n´o 100. J´a para o n´o seguinte

(39)

(010), notou-se que δ < |p(0|010) − p(0|1010)|, assim, voltar um passo a mais no passado ´e importante quando se trata da sequˆencia 010, portanto, n˜ao se pode podar suas folhas. Ent˜ao, atribui-se o s´ımbolo T ao n´o 010. Prosseguindo com essa an´alise para todos os n´os do n´ıvel k = 3 encontrou-se a ´arvore da Figura 12.

0 ←−−→ 1 111 011 1101 0101 1001 0001 110 1010 0010 100 000 T T T

Figura 12: ´Arvore de contextos da Figura 11 ap´os primeira aplica¸c˜ao do passo 2.

Nota-se que, nesse momento, o passo 3 n˜ao pode ser aplicado pois n˜ao existe nenhuma folha associada ao s´ımbolo T . Pula-se, ent˜ao, para o passo 4.

Agora k = 2. Como k > 0 aplica-se o algoritmo novamente a partir do passo 2. Nota-se que no n´ıvel k = 2 apenas os n´os 00 e 11 n˜ao possuem folhas associadas a um s´ımbolo T , portanto as probabilidades de transi¸c˜ao devem ser comparadas apenas para esses n´os. Suponha que |p(0|00) − p(0|000)| < |p(0|00) − p(0|100)| < δ, portanto as folhas 000 e 100 devem ser podadas. J´a para o n´o 11 notou-se que δ < |p(0|11) − p(0|011)|, assim, este n´o receber´a o s´ımbolo T e suas folhas n˜ao ser˜ao podadas.

Aplica-se o passo 3 e atribui-se o s´ımbolo T a todos os n´os do n´ıvel k = 2 que n˜ao foram analisados, pois j´a havia um s´ımbolo T associado a alguma de suas folhas. Veja a Figura 13. 0 ←−−→ 1 111 011 1101 0101 1001 0001 110 1010 0010 00 T T T T T T

Figura 13: ´Arvore de contextos da Figura 12 ap´os aplica¸c˜ao do passo 3.

Agora, pelo passo 4, tem-se que k = 1, como k > 0 retorna-se ao passo 2, mas n˜ao existe mais nenhum n´o n˜ao associado a uma folha com s´ımbolo T , portanto, pode-se

(40)

terminar o algoritmo. Elimina-se os s´ımbolos T escritos na ´arvore e, finalmente, obtˆem-se τ0 = {00, 0010, 1010, 110, 0001, 1001, 0101, 1101, 011, 111}.

2.5

Modelo de Regress˜

ao Linear M´

ultipla com

trans-forma¸

ao c´

ubica

No Cap´ıtulo 3 inicia-se uma investiga¸c˜ao sobre o δ, crit´erio do Algoritmo Contexto. A partir de suposi¸c˜oes feitas sobre probabilidades de transi¸c˜ao, ´e poss´ıvel identificar uma rela¸c˜ao linear entre o δ e outras duas vari´aveis explicativas que ser˜ao definidas no Cap´ıtulo 3. Consequentemente, o modelo de regress˜ao linear m´ultipla (RLM) figurou como uma forma pertinente de explicar δ em fun¸c˜ao dessas duas vari´aveis. Nesta se¸c˜ao, pretende-se, brevemente, explicar o RLM para a compreens˜ao dos estudos feitos no Cap´ıtulo 3.

O modelo utilizado sup˜oe que

δi = β1+ β2Xi1+ β3Xi2+ φi, i = 1, 2, ..., n

onde δi representa o i-´esimo valor observado de δ, β = [β1, β2, β3] um vetor de parˆametros

desconhecidos, Xi1 e Xi2 s˜ao as i-´esimas observa¸c˜oes das vari´aveis explicativas, n ´e o

tamanho da amostra e φi ´e o erro aleat´orio, por hip´otese φi ∼ N (0, σ2). Al´em da

hip´otese de normalidade e homoscedasticidade dos erros, o RLM tamb´em pressup˜oe inde-pendˆencia nas observa¸c˜oes, linearidade nos parˆametros e ausˆencia de outliers (KUTNER; NACHTSHEIM; NETER, 2003).

Uma vez estabelecido o modelo te´orico, prop˜oe-se estimar os valores dos parˆametros do modelo ˆβ

, pelo m´etodo de m´ınimos quadrados ordin´arios (MQO), para que seja poss´ıvel estimar um valor para δ (ˆδ), dadas as vari´aveis explicativas, atrav´es da fun¸c˜ao

ˆ

δi = ˆβ1 + ˆβ2Xi1+ ˆβ3Xi2, i = 1, 2, ..., n.

Ao estimar os valores de δ ´e poss´ıvel calcular os res´ıduos do modelo, definidos como ei = δi− ˆδi, i = 1, 2, ..., n.

e, a partir deles pode-se calcular os res´ıduos estudentizados e verificar as suposi¸c˜oes do modelo.

O teste de Kolmogorov–Smirnov pode ser aplicado aos res´ıduos estudentizados para verificar se estes seguem uma distribui¸c˜ao normal padr˜ao. Caso o teste rejeite a hip´otese

(41)

de normalidade, ´e poss´ıvel aplicar alguns tipos de transforma¸c˜oes aos dados para tentar obter normalidade dos res´ıduos.

Uma das poss´ıveis transforma¸c˜oes, que foi adotada neste trabalho, ´e a raiz c´ubica da vari´avel dependente (δ). Esta transforma¸c˜ao n˜ao interfere na rela¸c˜ao de linearidade entre as vari´aveis explicativas e a vari´avel resposta, estabiliza a variˆancia dos res´ıduos e torna sua distribui¸c˜ao aproximadamente normal (KUTNER; NACHTSHEIM; NETER, 2003). O novo modelo ajustado fica da forma

3

q ˆ

δi = ˆβ1+ ˆβ2Xi1+ ˆβ3Xi2, i = 1, 2, ..., n.

Uma vez testada e confirmada a normalidade dos res´ıduos ´e preciso verificar as demais hip´oteses do modelo. Em seguida, ´e poss´ıvel testar a significˆancia dos parˆametros para afirmar que as vari´aveis explicativas tem, de fato, efeito linear significativo sobre a raiz c´ubica de δ.

Uma vez que os estimadores de MQO s˜ao n˜ao-viesados e a partir da hip´otese de normalidade dos erros pode-se inferir que

ˆ

βk∼ N (βk, V ar( ˆβ)).

´

E poss´ıvel mostrar que

V ar( ˆβ) = (X0X)−1X0E(e0e)X(X0X)−1,

onde e0 = [e1, e2, ..., en] e X ´e a matriz de vari´aveis independentes. Se a hip´otese de

homocedasticidade ´e v´alida est˜ao E(e0e) = σ2, ent˜ao V ar( ˆβ) = σ2(X0X)−1, caso contr´ario

´e poss´ıvel estimar a variˆancia de ˆβ a partir dos res´ıduos do modelo, s˜ao os chamados estimadores robustos para heterocedasticidade (WOOLDRIDGE, 1960).

O teste de significˆancia individual para o parˆametro βk, k = 1, 2, 3 consiste em testar

as hip´oteses

H0 : βk= 0

H1 : βk6= 0

Sob H0, e a partir da distribui¸c˜ao de ˆβ deriva-se a estat´ıstica do teste

T = ˆ βk 2 q Vˆar( ˆβk) ∼ Tn−p,

(42)

onde p ´e o n´umero de parˆametros a serem estimados (neste modelo p = 3). Obtˆem-se, ent˜ao, o valor observado da estat´ıstica do teste tobs. A partir de um n´ıvel de significˆancia

α que, neste trabalho, foi considerado α = 0,05, verifica-se se tobs ´e de fato um valor

compat´ıvel com a distribui¸c˜ao padronizada de βk. Um bom indicador ´e o p − valor que ´e

uma probabilidade de obter alguma observa¸c˜ao mais extrema (na dire¸c˜ao de H1) que tobs

sob H0.

p − valor = P (Tn−p > |tobs|) + P (Tn−p< −|tobs|).

Se p − valor ≤ α rejeita-se H0 ao n´ıvel de significˆancia de 5%. Em seguida pode ser

observado o n´ıvel de determina¸c˜ao do modelo R2, que quantifica o quanto da varia¸c˜ao da

(43)

3

An´

alise dos Resultados

3.1

An´

alise do Delta

De acordo com o que foi estudado sobre o Algoritmo Contexto, nota-se que este tem por crit´erio de decis˜ao o valor δ, uma distˆancia m´axima toler´avel entre as probabilidades de transi¸c˜ao. Veja que uma escolha incorreta do δ prejudica a capacidade algoritmo de estimar a ´arvore de contextos correta, uma vez que um δ muito alto “rejeita” mais contextos do que deveria, e um δ muito baixo “aceita”. Dessa forma, antes de recorrer ao algoritmo para estimar τ , ´e preciso primeiro determinar δ.

No programa R (TEAM, 2014) foi feita uma s´erie de simula¸c˜oes a fim de compreender melhor o δ e seu comportamento, a seguir ser´a relatada a formula¸c˜ao e organiza¸c˜ao dessas simula¸c˜oes.

3.1.1

Considera¸

oes iniciais da simula¸

ao

1. ´Arvore de contextos conhecida.

As amostras de cadeias estoc´asticas foram simuladas a partir de ´arvores de contexto conhecidas. Seja τ0 uma ´arvore de contextos preestabelecida, ao atribuir-se valores

`

as probabilidades P = {p(a|u0) : u0 ∈ τ0, a ∈ A}, ´e poss´ıvel simular uma amostra

de tamanho n ∈ N compat´ıvel com (τ0, P ). Note que os j primeiros valores iniciais

da amostra, onde j ´e o tamanho da maior sequˆencia em τ0, tamb´em devem ser

conhecidos para que se possa iniciar a simula¸c˜ao.

De posse da amostra simulada ´e poss´ıvel estimar as probabilidades ˆp(a|u), onde u ∈ Ak, para qualquer k que seja menor que n o bastante.

2. Intervalo de aceita¸c˜ao para δ. ´

E poss´ıvel, a partir das probabilidades estimadas, encontrar um intervalo de valores de δ que encontra τ0 atrav´es do Algoritmo Contexto. Denote IAδ o “intervalo de

(44)

aceita¸c˜ao de δ”.

Exemplo 3.1. Dada uma amostra de tamanho n referente a uma cadeia com τ0 =

{0, 01, 011, 111}, prop˜oe-se tentar identificar os valores de δ que comp˜oem IAδ, em

fun¸c˜ao das probabilidades estimadas. Tome uma ´arvore de contextos at´e um n´ıvel d = 4 conforme a Figura 11. Para encontrar τ0 o Algoritmo Contexto deve “podar”

as “folhas” at´e que a ´arvore fique conforme a Figura 14.

0 ←−−→ 1

111 011 01 0

Figura 14: ´Arvore referente a τ0 = {0, 01, 011, 111} com A = {0, 1}

Note que, a maior sequˆencia em τ0 tem tamanho 3. Portanto ´e preciso “podar”

qualquer n´ıvel da ´arvore com sequˆencias de tamanho maior que 3. Em outras palavras, ´e preciso encontrar um δ tal que

max

b∈A maxa∈A {|ˆp(a|u) − ˆp(a|bu)|} ≤ δ, ∀ u ∈ A

k, k ≥ 3.

Tome δl1 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Mais que isso, o δ ideal

ainda precisa garantir que as sequˆencias {00, 10, 000, 100, 010, 110, 001, 101} sejam podadas, ent˜ao,

max

b∈A maxa∈A {|ˆp(a|v) − ˆp(a|bv)|} ≤ δ, ∀ v ∈ {0, 00, 10, 01} .

Tome δl2 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Finalmente, ´e preciso

garantir que pelo menos uma das sequˆencias {011, 111} n˜ao possam ser cortadas, ent˜ao

max

b∈A maxa∈A {|ˆp(a|11) − ˆp(a|b11)|} > δ.

Tome δuigual ao maior dos δ que satisfazem essa condi¸c˜ao. Portanto, pode-se definir

IAδ = [δl = max {δl1, δl2} , δu] como o maior intervalo tal que, se δ ∈ IAδ, ent˜ao o

Algoritmo Contexto, encontra τ0.

A partir do Exemplo 3.1 ´e importante notar que, caso δ < δl o Algoritmo Contexto

(45)

o Algoritmo Contexto “rejeitar” mais contextos do que deveria, assim, ´e v´alida a rela¸c˜ao abaixo:

δ < δl → ˆτ  τ0

δ ∈ [δl, δu] → ˆτ = τ0

δ > δu → ˆτ ≺ τ0

Quando subestima-se δ obtˆem-se ˆτ  τ0, ent˜ao os elementos de τ0que n˜ao pertencem

a ˆτ s˜ao sufixos de elementos em ˆτ . Dessa forma, a informa¸c˜ao relevante sobre o passado est´a em ˆτ , mesmo que esta ´arvore estimada carregue mais informa¸c˜ao do que o necess´ario. J´a no caso uma superestima¸c˜ao de δ obtˆem-se ˆτ ≺ τ0, existem

elementos em τ0 que n˜ao pertencem a ˆτ e n˜ao s˜ao sufixos de elementos em ˆτ , desta

forma, desconsidera-se a influˆencia de parte relevante do passado nas probabilidades de transi¸c˜ao do modelo.

Por esse motivo, em termos de qualidade preditiva, este trabalho considera que subestimar δ ´e melhor que superestim´a-lo.

Outra observa¸c˜ao necess´aria ´e que existe a possibilidade de, nas simula¸c˜oes, ocorrer amostras em que δl > δu, neste caso, considera-se que n˜ao existe um δ que encontra

τ0 para essa amostra.

3. Espa¸co de estados e sele¸c˜ao de ´arvores de contexto

As simula¸c˜oes feitas neste trabalho consideraram apenas cadeias com espa¸co de estados A = {0,1}.

Buscando analisar os efeitos das probabilidades sobre δ foram escolhidas trˆes ´arvores de contextos a partir das quais ser˜ao geradas as amostras. S˜ao elas

τ1 = {0, 1}

τ2 = {0, 01, 011, 111}

τ3 = {000, 100, 10, 11, 001, 101} .

Para cada uma dessas ´arvores foi estabelecida uma regra para encontrar IAδ

con-forme o Exerc´ıcio 3.1.

(46)

Uma vez que o IAδ, se existe, est´a em fun¸c˜ao das probabilidades estimadas,

levantou-se a hip´otese de δ ser uma fun¸c˜ao das probabilidades de transi¸c˜ao compat´ıveis com a amostra. Investigar essa rela¸c˜ao, no entanto, ´e um trabalho dif´ıcil uma vez que existem muitas combina¸c˜oes poss´ıveis de valores que as probabilidades podem as-sumir. Fez-se necess´ario ent˜ao adotar uma constru¸c˜ao simplificada para os valores das probabilidades de transi¸c˜ao.

Assumiu-se que todas as probabilidades de transi¸c˜ao seriam fun¸c˜oes de um valor  ∈ [0, 1/2], e definidas como segue:

τ1 : P (0|0) = 1/2 − ; P (0|1) = 1/2 + 

τ2 : P (0|0) = 1/2 − ; P (0|01) = 1/2 + ; P (0|011) = 1/2 − ; P (0|111) = 1/2 + 

τ3 : P (0|000) = 1/2 − ; P (0|100) = 1/2 + ; P (0|10) = 1/2 − ;

P (0|11) = 1/2 + ; P (0|001) = 1/2 − ; P (0|101) = 1/2 + .

Nesta configura¸c˜ao as probabilidades “pares”, aquelas condicionadas em sequˆencias que dividem o mesmo n´o na ´arvore de contextos, devem somar 1. Note que, se  ´e pequeno, ent˜ao as probabilidades de transi¸c˜ao ser˜ao bem pr´oximas. Se  ´e grande haver´a uma distin¸c˜ao maior entre as probabilidades, principalmente quando comparadas com suas complementares.

5. Tamanho da amostra e profundidade da ´arvore inicial.

O tamanho da ´arvore inicial d, necess´ario para o primeiro passo do Algoritmo Con-texto, ´e uma fun¸c˜ao do tamanho da amostra n, e da cardinalidade do espa¸co de estados |A|. Na hora de gerar amostras ´e preciso pensar com cuidado quais valores de d e n geram boas estimativas sem onerar muito o tempo de processamento. Em termos pr´aticos, para garantir uma boa estima¸c˜ao das probabilidades ´e preciso que haja ocorrˆencias suficientes das sequˆencias na amostra, nesse sentido ´e reco-mend´avel escolher n grande. Por exemplo, para calcular ˆp(1|01001) ´e preciso contar quantas vezes as sequˆencias 010011 e 010010 ocorreram, se a probabilidade de al-guma ocorrer for relativamente baixa e o tamanho da amostra pequeno, ´e poss´ıvel que n˜ao haja nenhuma observa¸c˜ao da sequˆencia na amostra. O valor de n precisa permitir que as sequˆencias ocorram tantas vezes quanto necess´arias para sua pro-por¸c˜ao aproximar-se da probabilidade real. Vale lembrar que se d = k ´e preciso observar as quantidades de ocorrˆencias de todas as sequˆencias de tamanho menor ou igual a k + 1.

(47)

Em contrapartida sabe-se que quanto maior o n maior o custo operacional. Prin-cipalmente quando se percebe que d tamb´em aumenta e, portanto, o n´umero de sequˆencias a serem encontradas e contadas na amostra aumenta exponencialmente. Outra coisa a se considerar ´e que s˜ao necess´arios valores iniciais para gerar amostras de cadeias estoc´asticas, para dissipar o efeito destes valores, 10% das observa¸c˜oes foram exclu´ıdas do inicio das amostras.

Tudo isso considerado, definiu-se d = blog|A|n

2 c − 1. Esta equa¸c˜ao para d foi proposta

para que este n˜ao aumentasse tanto em fun¸c˜ao de n, permitindo a operacionaliza¸c˜ao das simula¸c˜oes. Como o aumento de n n˜ao ´e t˜ao oneroso quanto o aumento de uma unidade em d, propˆos-se encontrar o maior n para um determinado d, ou seja encontrar o n que “satura” d. Dessa forma, n ≈ |A|2d+4.

Como tamb´em ´e necess´ario apagar o efeito dos valores iniciais utilizados na gera¸c˜ao da amostra, ´e preciso encontrar um N tal que 0,9N = n, e este ser´a o valor utilizado para gerar as amostras. Por exemplo, para ter d = 4 ´e preciso que 1024 < n < 4096, assim, ´e necess´ario que 0,9N < 4096, ent˜ao 1138 ≤ N ≤ 4551. Se N = 4552, ent˜ao n = 4096,8 e d = 5, nesse cen´ario passa a ser necess´ario contar tamb´em a quantidade de repeti¸c˜oes de sequˆencias de tamanho 6. Al´em do custo de ter 26 sequˆencias a

mais para contar, existe o risco dessas sequˆencias n˜ao ocorrerem suficientemente neste tamanho de amostra.

Veja na Tabela 2 uma rela¸c˜ao dos valores m´aximos de n e N para alguns valores de d. d n N 3 1.023 1.137 4 4.095 4.551 5 16.383 18.204 6 65.535 72.817 Tabela 2: Rela¸c˜ao d versus n

3.2

Simula¸

ao

A partir da discuss˜ao na se¸c˜ao anterior foi poss´ıvel construir um algoritmo para si-mula¸c˜ao de amostras de cadeias estoc´asticas e investiga¸c˜ao da distribui¸c˜ao de δ.

O processo consiste em, dado um τ0, um N , um  e alguns valores iniciais, simular

(48)

amostra de tamanho n. A partir de n calcula-se d, lista-se todas as sequˆencias poss´ıveis de tamanhos k ≤ d + 1, e contabiliza-se as quantidades de suas ocorrˆencias a fim de estimar as probabilidades de transi¸c˜ao.

Conforme o Exemplo 3.1, a partir dessas probabilidades estimadas, ´e poss´ıvel calcular um IAδ, se este existir1. Nesse caso, pode-se calcular as diferen¸cas entre as probabilidades

de transi¸c˜ao e, dado um valor δ ∈ IAδ, estimar uma ´arvore atrav´es do Algoritmo Contexto.

Naturalmente, se IAδ existe, ent˜ao a ´arvore estimada ´e τ0.

3.2.1

Rela¸

ao entre δ e as probabilidades de transi¸

ao

Na pr´atica, foram geradas r = 100 amostras para cada τi, i = 1, 2, 3, N e , com

o intuito de verificar a capacidade do algoritmo de estimar τi. Inicialmente foram

es-tabelecidos dois valores para ,  = 0,125 (cen´ario bom) e  = 0,0625 (cen´ario ruim). Essa distin¸c˜ao entre cen´ario bom e ruim se d´a, pois quanto mais as probabilidades se aproximam de 1/2 mais dif´ıcil se torna a estima¸c˜ao. Como as probabilidades tornam-se muito pr´oximas, a frequˆencia com que as sequˆencias aparecem na amostra torna-se muito parecida, espera-se que a amplitude do IAδ diminua, ou, em muitos casos, n˜ao exista.

Veja a Tabela 3, para cada valor de N foram geradas r = 100 amostras compat´ıveis com τ2 a partir de  = 0,125. Como, para cada amostra pode ser obtido um IAδ, cada

linha da tabela corresponde a 100 intervalos de aceita¸c˜ao. Os valores δ∗l e δ∗u comp˜oem IAδ∗, que ´e o intervalo que mais interseccionou os 100 IAδ gerados para cada N . A forma

de encontrar IAδ∗ ser´a abordada a seguir na Se¸c˜ao 3.2.2. A vari´avel δu∗− δl∗´e a amplitude

de IAδ∗, e o “% Acerto” representa quantas das 100 repeti¸c˜oes encontraram um IAδ e,

portanto, estimaram τ2 com sucesso. Pode-se observar que, neste cen´ario, foi poss´ıvel

encontrar um intervalo de δ que encontra τ2 em todas as 100 repeti¸c˜oes para todos os

tamanhos N , justificando a denota¸c˜ao de cen´ario bom.

Ao mesmo tempo, ao comparar com a Tabela 4, verifica-se que o “% Acerto” cai. Isto ocorre pois as probabilidades de transi¸c˜ao da Tabela 4 foram geradas a partir de um  = 0,0625, configurando o cen´ario ruim. Existe maior dificuldade de encontrar valores de δ que estimam τ2. Isto se reflete na m´edia da vari´avel δ∗u− δ

l que ´e 0,0215 no cen´ario

bom, e cai para 0,0044 no cen´ario ruim.

Na Tabela 5 foi especificado qual d, tamanho inicial da ´arvore de contextos, corres-ponde aos valores de N nas Tabelas 3 e 4. Pode-se observar pela Tabela 4 que para um

1O intervalo existe se seu limite inferior ´e menor que o limite superior conforme explicado no Exemplo

(49)

N P (0|0) P (0|01) P (0|011) P (0|111) δl∗ δ∗u δu∗− δ∗ l % Acerto 1000 0,375 0,625 0,375 0,625 0,0914 0,0971 0,0057 100% 4000 0,375 0,625 0,375 0,625 0,0872 0,1177 0,0304 100% 7000 0,375 0,625 0,375 0,625 0,0956 0,1039 0,0083 100% 10000 0,375 0,625 0,375 0,625 0,0822 0,1176 0,0354 100% 13000 0,375 0,625 0,375 0,625 0,0887 0,1147 0,0260 100% 16000 0,375 0,625 0,375 0,625 0,0704 0,1118 0,0413 100% 19000 0,375 0,625 0,375 0,625 0,1085 0,1124 0,0039 100% 22000 0,375 0,625 0,375 0,625 0,0991 0,1123 0,0132 100% 25000 0,375 0,625 0,375 0,625 0,0939 0,1228 0,0289 100%

Tabela 3: Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario bom.

N P (0|0) P (0|01) P (0|011) P (0|111) δl∗ δ∗u δu∗− δ∗ l % Acerto 1000 0,4375 0,5625 0,4375 0,5625 0,0615 0,0766 0,0151 60% 4000 0,4375 0,5625 0,4375 0,5625 0,0601 0,0646 0,0045 50% 7000 0,4375 0,5625 0,4375 0,5625 0,0652 0,069 0,0037 60% 10000 0,4375 0,5625 0,4375 0,5625 0,058 0,0591 0,001 90% 13000 0,4375 0,5625 0,4375 0,5625 0,0586 0,0633 0,0047 100% 16000 0,4375 0,5625 0,4375 0,5625 0,0516 0,0527 0,0012 100% 19000 0,4375 0,5625 0,4375 0,5625 0,0586 0,0656 0,007 50% 22000 0,4375 0,5625 0,4375 0,5625 0,0595 0,0614 0,0019 70% 25000 0,4375 0,5625 0,4375 0,5625 0,0603 0,0607 0,0004 90%

Tabela 4: Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario ruim.

mesmo d o “% Acerto” aumenta conforme N aumenta. Isto sinaliza que dado d, quanto maior o tamanho da amostra maior a probabilidade de encontrar um δ que estima τ corretamente.

Uma vez que mudan¸cas em d atrapalham a an´alise de como IAδ reage `as varia¸c˜oes

em N , foram simuladas amostras aumentando N mas mantendo d = 4 constante, para um mesmo τ e  = 0,3. O resultado pode ser visto na Figura 15 onde observa-se o comportamento de IAδa medida que N cresce. Note que os valores de δus˜ao relativamente

constantes enquanto os valores de δl tendem a diminuir com o aumento de N , portanto,

a amplitude do IAδ tende a aumentar a medida que N aumenta.

3.2.2

Algoritmo para determina¸

ao de IA

δ∗

Dada uma amostra para um τ0 conhecido ´e poss´ıvel encontrar um IAδ conforme

de-monstrado no Exemplo 3.1. Se, entretanto, s˜ao geradas r amostras haver´a r intervalos de IAδ. Faz-se necess´ario ent˜ao encontrar o intervalo de valores de δ que mais

(50)

interseccio-N n d 1000 900 3 4000 3600 4 7000 6300 5 10000 9000 5 13000 11700 5 16000 14400 5 19000 17100 6 22000 19800 6 25000 22500 6

Tabela 5: Valor de d para cada N nas Tabelas 3 e 4

4000 6000 8000 10000 0.15 0.20 0.25 0.30 N δ

δ

l

δ

u

Figura 15: Comportamento de δl e δu a mudan¸cas em N mantendo d = 4, para τ2.

nou os IAδ encontrados. Veja a Figura 16, nesta foram plotados r = 7 IAδ, note que o

intervalo limitado pelas linhas verticais ´e constitu´ıdo exclusivamente de valores de δ que encontram τ0 em 5 das 7 amostras, nenhum outro intervalo ´e t˜ao ou mais eficaz, portanto

este ser´a IAδ∗.

Para determinar esse intervalo a partir dos IAδ obtidos nas simula¸c˜oes foi aplicado o

seguinte algoritmo:

1 Defina ~δl o vetor com todos os r δl j´a ordenados, e ~δu o vetor com todos os r δu

tamb´em j´a ordenados.

Referências

Documentos relacionados

Detectadas as baixas condições socioeconômicas e sanitárias do Município de Cuité, bem como a carência de informação por parte da população de como prevenir

Promovido pelo Sindifisco Nacio- nal em parceria com o Mosap (Mo- vimento Nacional de Aposentados e Pensionistas), o Encontro ocorreu no dia 20 de março, data em que também

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

Os principais resultados obtidos pelo modelo numérico foram que a implementação da metodologia baseada no risco (Cenário C) resultou numa descida média por disjuntor, de 38% no

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

Por outro lado, os dados também apontaram relação entre o fato das professoras A e B acreditarem que seus respectivos alunos não vão terminar bem em produção de textos,

speciosa populations based on SSR markers, also showed no significant correlation between genetic and geographical distances (Rodrigues, 2009), corroborating the

O presente trabalho tem como objetivo geral analisar como instrumentos interativos podem contribuir no processo de aprendizado e do desenvolvimento do indivíduo,