Considera¸ c˜ oes iniciais da simula¸ c˜ ao

3 An´ alise dos Resultados

3.1 An´ alise do Delta

3.1.1 Considera¸ c˜ oes iniciais da simula¸ c˜ ao

1. ´Arvore de contextos conhecida.

As amostras de cadeias estocásticas foram simuladas a partir de árvores de contexto conhecidas. Seja τ0 uma árvore de contextos preestabelecida, ao atribuir-se valores

as probabilidades P = {p(a|u0) : u0 ∈ τ0, a ∈ A}, ´e poss´ıvel simular uma amostra

de tamanho n ∈ N compat´ıvel com (τ0, P ). Note que os j primeiros valores iniciais

da amostra, onde j é o tamanho da maior sequência em τ0, também devem ser

conhecidos para que se possa iniciar a simula¸c˜ao.

De posse da amostra simulada ´e poss´ıvel estimar as probabilidades ˆp(a|u), onde u ∈ Ak_{, para qualquer k que seja menor que n o bastante.}

2. Intervalo de aceita¸c˜ao para δ. ´

E poss´ıvel, a partir das probabilidades estimadas, encontrar um intervalo de valores de δ que encontra τ0 atrav´es do Algoritmo Contexto. Denote IAδ o “intervalo de

aceita¸c˜ao de δ”.

Exemplo 3.1. Dada uma amostra de tamanho n referente a uma cadeia com τ0 =

{0, 01, 011, 111}, prop˜oe-se tentar identificar os valores de δ que comp˜oem IAδ, em

fun¸cão das probabilidades estimadas. Tome uma árvore de contextos até um n´ıvel d = 4 conforme a Figura 11. Para encontrar τ0 o Algoritmo Contexto deve “podar”

as “folhas” at´e que a ´arvore fique conforme a Figura 14.

0 ←−−→ 1

111 011 01 0

Figura 14: ´Arvore referente a τ0 = {0, 01, 011, 111} com A = {0, 1}

Note que, a maior sequˆencia em τ0 tem tamanho 3. Portanto ´e preciso “podar”

qualquer n´ıvel da árvore com sequências de tamanho maior que 3. Em outras palavras, é preciso encontrar um δ tal que

max

b∈A maxa∈A {|ˆp(a|u) − ˆp(a|bu)|} ≤ δ, ∀ u ∈ A

k_{, k ≥ 3.}

Tome δl1 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Mais que isso, o δ ideal

ainda precisa garantir que as sequˆencias {00, 10, 000, 100, 010, 110, 001, 101} sejam podadas, ent˜ao,

max

b∈A maxa∈A {|ˆp(a|v) − ˆp(a|bv)|} ≤ δ, ∀ v ∈ {0, 00, 10, 01} .

Tome δl2 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Finalmente, ´e preciso

garantir que pelo menos uma das sequências {011, 111} não possam ser cortadas, então

max

b∈A maxa∈A {|ˆp(a|11) − ˆp(a|b11)|} > δ.

Tome δuigual ao maior dos δ que satisfazem essa condi¸c˜ao. Portanto, pode-se definir

IAδ = [δl = max {δl1, δl2} , δu] como o maior intervalo tal que, se δ ∈ IAδ, ent˜ao o

Algoritmo Contexto, encontra τ0.

A partir do Exemplo 3.1 ´e importante notar que, caso δ < δl o Algoritmo Contexto

o Algoritmo Contexto “rejeitar” mais contextos do que deveria, assim, é válida a rela¸cão abaixo:

δ < δl → ˆτ τ0

δ ∈ [δl, δu] → ˆτ = τ0

δ > δu → ˆτ ≺ τ0

Quando subestima-se δ obtêm-se ˆτ τ0, então os elementos de τ0que não pertencem

a ˆτ são sufixos de elementos em ˆτ . Dessa forma, a informa¸cão relevante sobre o passado está em ˆτ , mesmo que esta árvore estimada carregue mais informa¸cão do que o necessário. Já no caso uma superestima¸cão de δ obtêm-se ˆτ ≺ τ0, existem

elementos em τ0 que não pertencem a ˆτ e não são sufixos de elementos em ˆτ , desta

forma, desconsidera-se a influˆencia de parte relevante do passado nas probabilidades de transi¸c˜ao do modelo.

Por esse motivo, em termos de qualidade preditiva, este trabalho considera que subestimar δ ´e melhor que superestim´a-lo.

Outra observa¸cão necessária é que existe a possibilidade de, nas simula¸cões, ocorrer amostras em que δl > δu, neste caso, considera-se que não existe um δ que encontra

τ0 para essa amostra.

3. Espa¸co de estados e sele¸c˜ao de ´arvores de contexto

As simula¸c˜oes feitas neste trabalho consideraram apenas cadeias com espa¸co de estados A = {0,1}.

Buscando analisar os efeitos das probabilidades sobre δ foram escolhidas três árvores de contextos a partir das quais serão geradas as amostras. São elas

τ1 = {0, 1}

τ2 = {0, 01, 011, 111}

τ3 = {000, 100, 10, 11, 001, 101} .

Para cada uma dessas ´arvores foi estabelecida uma regra para encontrar IAδ con-

forme o Exerc´ıcio 3.1.

Uma vez que o IAδ, se existe, est´a em fun¸c˜ao das probabilidades estimadas, levantou-

se a hipótese de δ ser uma fun¸cão das probabilidades de transi¸cão compat´ıveis com a amostra. Investigar essa rela¸cão, no entanto, é um trabalho dif´ıcil uma vez que existem muitas combina¸cões poss´ıveis de valores que as probabilidades podem as- sumir. Fez-se necessário então adotar uma constru¸cão simplificada para os valores das probabilidades de transi¸cão.

Assumiu-se que todas as probabilidades de transi¸c˜ao seriam fun¸c˜oes de um valor ∈ [0, 1/2], e definidas como segue:

τ1 : P (0|0) = 1/2 − ; P (0|1) = 1/2 +

τ2 : P (0|0) = 1/2 − ; P (0|01) = 1/2 + ; P (0|011) = 1/2 − ; P (0|111) = 1/2 +

τ3 : P (0|000) = 1/2 − ; P (0|100) = 1/2 + ; P (0|10) = 1/2 − ;

P (0|11) = 1/2 + ; P (0|001) = 1/2 − ; P (0|101) = 1/2 + .

Nesta configura¸cão as probabilidades “pares”, aquelas condicionadas em sequências que dividem o mesmo nó na árvore de contextos, devem somar 1. Note que, se é pequeno, então as probabilidades de transi¸cão serão bem próximas. Se é grande haverá uma distin¸cão maior entre as probabilidades, principalmente quando comparadas com suas complementares.

5. Tamanho da amostra e profundidade da ´arvore inicial.

O tamanho da árvore inicial d, necessário para o primeiro passo do Algoritmo Con- texto, é uma fun¸cão do tamanho da amostra n, e da cardinalidade do espa¸co de estados |A|. Na hora de gerar amostras é preciso pensar com cuidado quais valores de d e n geram boas estimativas sem onerar muito o tempo de processamento. Em termos práticos, para garantir uma boa estima¸cão das probabilidades é preciso que haja ocorrências suficientes das sequências na amostra, nesse sentido é reco- mendável escolher n grande. Por exemplo, para calcular ˆp(1|01001) é preciso contar quantas vezes as sequências 010011 e 010010 ocorreram, se a probabilidade de al- guma ocorrer for relativamente baixa e o tamanho da amostra pequeno, é poss´ıvel que não haja nenhuma observa¸cão da sequência na amostra. O valor de n precisa permitir que as sequências ocorram tantas vezes quanto necessárias para sua pro- por¸cão aproximar-se da probabilidade real. Vale lembrar que se d = k é preciso observar as quantidades de ocorrências de todas as sequências de tamanho menor ou igual a k + 1.

Em contrapartida sabe-se que quanto maior o n maior o custo operacional. Prin- cipalmente quando se percebe que d também aumenta e, portanto, o número de sequências a serem encontradas e contadas na amostra aumenta exponencialmente. Outra coisa a se considerar é que são necessários valores iniciais para gerar amostras de cadeias estocásticas, para dissipar o efeito destes valores, 10% das observa¸cões foram exclu´ıdas do inicio das amostras.

Tudo isso considerado, definiu-se d = blog|A|n

2 c − 1. Esta equa¸c˜ao para d foi proposta

para que este não aumentasse tanto em fun¸cão de n, permitindo a operacionaliza¸cão das simula¸cões. Como o aumento de n não é tão oneroso quanto o aumento de uma unidade em d, propôs-se encontrar o maior n para um determinado d, ou seja encontrar o n que “satura” d. Dessa forma, n ≈ |A|2d+4_.

Como também é necessário apagar o efeito dos valores iniciais utilizados na gera¸cão da amostra, é preciso encontrar um N tal que 0,9N = n, e este será o valor utilizado para gerar as amostras. Por exemplo, para ter d = 4 é preciso que 1024 < n < 4096, assim, é necessário que 0,9N < 4096, então 1138 ≤ N ≤ 4551. Se N = 4552, então n = 4096,8 e d = 5, nesse cenário passa a ser necessário contar também a quantidade de repeti¸cões de sequências de tamanho 6. Além do custo de ter 26 _sequˆ_{encias a}

mais para contar, existe o risco dessas sequˆencias n˜ao ocorrerem suficientemente neste tamanho de amostra.

Veja na Tabela 2 uma rela¸cão dos valores máximos de n e N para alguns valores de d. d n N 3 1.023 1.137 4 4.095 4.551 5 16.383 18.204 6 65.535 72.817 Tabela 2: Rela¸cão d versus n

3.2 Simula¸c˜ao

A partir da discussão na se¸cão anterior foi poss´ıvel construir um algoritmo para simula¸cão de amostras de cadeias estocásticas e investiga¸cão da distribui¸cão de δ.

O processo consiste em, dado um τ0, um N , um e alguns valores iniciais, simular

amostra de tamanho n. A partir de n calcula-se d, lista-se todas as sequências poss´ıveis de tamanhos k ≤ d + 1, e contabiliza-se as quantidades de suas ocorrências a fim de estimar as probabilidades de transi¸cão.

Conforme o Exemplo 3.1, a partir dessas probabilidades estimadas, ´e poss´ıvel calcular um IAδ, se este existir1. Nesse caso, pode-se calcular as diferen¸cas entre as probabilidades

de transi¸cão e, dado um valor δ ∈ IAδ, estimar uma árvore através do Algoritmo Contexto.

Naturalmente, se IAδ existe, então a árvore estimada é τ0.

No documento Inferência em cadeias com memória de alcance variável (páginas 43-48)