3 An´ alise dos Resultados
3.1 An´ alise do Delta
3.1.1 Considera¸ c˜ oes iniciais da simula¸ c˜ ao
1. ´Arvore de contextos conhecida.
As amostras de cadeias estoc´asticas foram simuladas a partir de ´arvores de contexto conhecidas. Seja τ0 uma ´arvore de contextos preestabelecida, ao atribuir-se valores
`
as probabilidades P = {p(a|u0) : u0 ∈ τ0, a ∈ A}, ´e poss´ıvel simular uma amostra
de tamanho n ∈ N compat´ıvel com (τ0, P ). Note que os j primeiros valores iniciais
da amostra, onde j ´e o tamanho da maior sequˆencia em τ0, tamb´em devem ser
conhecidos para que se possa iniciar a simula¸c˜ao.
De posse da amostra simulada ´e poss´ıvel estimar as probabilidades ˆp(a|u), onde u ∈ Ak, para qualquer k que seja menor que n o bastante.
2. Intervalo de aceita¸c˜ao para δ. ´
E poss´ıvel, a partir das probabilidades estimadas, encontrar um intervalo de valores de δ que encontra τ0 atrav´es do Algoritmo Contexto. Denote IAδ o “intervalo de
aceita¸c˜ao de δ”.
Exemplo 3.1. Dada uma amostra de tamanho n referente a uma cadeia com τ0 =
{0, 01, 011, 111}, prop˜oe-se tentar identificar os valores de δ que comp˜oem IAδ, em
fun¸c˜ao das probabilidades estimadas. Tome uma ´arvore de contextos at´e um n´ıvel d = 4 conforme a Figura 11. Para encontrar τ0 o Algoritmo Contexto deve “podar”
as “folhas” at´e que a ´arvore fique conforme a Figura 14.
0 ←−−→ 1
111 011 01 0
Figura 14: ´Arvore referente a τ0 = {0, 01, 011, 111} com A = {0, 1}
Note que, a maior sequˆencia em τ0 tem tamanho 3. Portanto ´e preciso “podar”
qualquer n´ıvel da ´arvore com sequˆencias de tamanho maior que 3. Em outras palavras, ´e preciso encontrar um δ tal que
max
b∈A maxa∈A {|ˆp(a|u) − ˆp(a|bu)|} ≤ δ, ∀ u ∈ A
k, k ≥ 3.
Tome δl1 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Mais que isso, o δ ideal
ainda precisa garantir que as sequˆencias {00, 10, 000, 100, 010, 110, 001, 101} sejam podadas, ent˜ao,
max
b∈A maxa∈A {|ˆp(a|v) − ˆp(a|bv)|} ≤ δ, ∀ v ∈ {0, 00, 10, 01} .
Tome δl2 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Finalmente, ´e preciso
garantir que pelo menos uma das sequˆencias {011, 111} n˜ao possam ser cortadas, ent˜ao
max
b∈A maxa∈A {|ˆp(a|11) − ˆp(a|b11)|} > δ.
Tome δuigual ao maior dos δ que satisfazem essa condi¸c˜ao. Portanto, pode-se definir
IAδ = [δl = max {δl1, δl2} , δu] como o maior intervalo tal que, se δ ∈ IAδ, ent˜ao o
Algoritmo Contexto, encontra τ0.
A partir do Exemplo 3.1 ´e importante notar que, caso δ < δl o Algoritmo Contexto
o Algoritmo Contexto “rejeitar” mais contextos do que deveria, assim, ´e v´alida a rela¸c˜ao abaixo:
δ < δl → ˆτ τ0
δ ∈ [δl, δu] → ˆτ = τ0
δ > δu → ˆτ ≺ τ0
Quando subestima-se δ obtˆem-se ˆτ τ0, ent˜ao os elementos de τ0que n˜ao pertencem
a ˆτ s˜ao sufixos de elementos em ˆτ . Dessa forma, a informa¸c˜ao relevante sobre o passado est´a em ˆτ , mesmo que esta ´arvore estimada carregue mais informa¸c˜ao do que o necess´ario. J´a no caso uma superestima¸c˜ao de δ obtˆem-se ˆτ ≺ τ0, existem
elementos em τ0 que n˜ao pertencem a ˆτ e n˜ao s˜ao sufixos de elementos em ˆτ , desta
forma, desconsidera-se a influˆencia de parte relevante do passado nas probabilidades de transi¸c˜ao do modelo.
Por esse motivo, em termos de qualidade preditiva, este trabalho considera que subestimar δ ´e melhor que superestim´a-lo.
Outra observa¸c˜ao necess´aria ´e que existe a possibilidade de, nas simula¸c˜oes, ocorrer amostras em que δl > δu, neste caso, considera-se que n˜ao existe um δ que encontra
τ0 para essa amostra.
3. Espa¸co de estados e sele¸c˜ao de ´arvores de contexto
As simula¸c˜oes feitas neste trabalho consideraram apenas cadeias com espa¸co de estados A = {0,1}.
Buscando analisar os efeitos das probabilidades sobre δ foram escolhidas trˆes ´arvores de contextos a partir das quais ser˜ao geradas as amostras. S˜ao elas
τ1 = {0, 1}
τ2 = {0, 01, 011, 111}
τ3 = {000, 100, 10, 11, 001, 101} .
Para cada uma dessas ´arvores foi estabelecida uma regra para encontrar IAδ con-
forme o Exerc´ıcio 3.1.
Uma vez que o IAδ, se existe, est´a em fun¸c˜ao das probabilidades estimadas, levantou-
se a hip´otese de δ ser uma fun¸c˜ao das probabilidades de transi¸c˜ao compat´ıveis com a amostra. Investigar essa rela¸c˜ao, no entanto, ´e um trabalho dif´ıcil uma vez que existem muitas combina¸c˜oes poss´ıveis de valores que as probabilidades podem as- sumir. Fez-se necess´ario ent˜ao adotar uma constru¸c˜ao simplificada para os valores das probabilidades de transi¸c˜ao.
Assumiu-se que todas as probabilidades de transi¸c˜ao seriam fun¸c˜oes de um valor ∈ [0, 1/2], e definidas como segue:
τ1 : P (0|0) = 1/2 − ; P (0|1) = 1/2 +
τ2 : P (0|0) = 1/2 − ; P (0|01) = 1/2 + ; P (0|011) = 1/2 − ; P (0|111) = 1/2 +
τ3 : P (0|000) = 1/2 − ; P (0|100) = 1/2 + ; P (0|10) = 1/2 − ;
P (0|11) = 1/2 + ; P (0|001) = 1/2 − ; P (0|101) = 1/2 + .
Nesta configura¸c˜ao as probabilidades “pares”, aquelas condicionadas em sequˆencias que dividem o mesmo n´o na ´arvore de contextos, devem somar 1. Note que, se ´e pequeno, ent˜ao as probabilidades de transi¸c˜ao ser˜ao bem pr´oximas. Se ´e grande haver´a uma distin¸c˜ao maior entre as probabilidades, principalmente quando comparadas com suas complementares.
5. Tamanho da amostra e profundidade da ´arvore inicial.
O tamanho da ´arvore inicial d, necess´ario para o primeiro passo do Algoritmo Con- texto, ´e uma fun¸c˜ao do tamanho da amostra n, e da cardinalidade do espa¸co de estados |A|. Na hora de gerar amostras ´e preciso pensar com cuidado quais valores de d e n geram boas estimativas sem onerar muito o tempo de processamento. Em termos pr´aticos, para garantir uma boa estima¸c˜ao das probabilidades ´e preciso que haja ocorrˆencias suficientes das sequˆencias na amostra, nesse sentido ´e reco- mend´avel escolher n grande. Por exemplo, para calcular ˆp(1|01001) ´e preciso contar quantas vezes as sequˆencias 010011 e 010010 ocorreram, se a probabilidade de al- guma ocorrer for relativamente baixa e o tamanho da amostra pequeno, ´e poss´ıvel que n˜ao haja nenhuma observa¸c˜ao da sequˆencia na amostra. O valor de n precisa permitir que as sequˆencias ocorram tantas vezes quanto necess´arias para sua pro- por¸c˜ao aproximar-se da probabilidade real. Vale lembrar que se d = k ´e preciso observar as quantidades de ocorrˆencias de todas as sequˆencias de tamanho menor ou igual a k + 1.
Em contrapartida sabe-se que quanto maior o n maior o custo operacional. Prin- cipalmente quando se percebe que d tamb´em aumenta e, portanto, o n´umero de sequˆencias a serem encontradas e contadas na amostra aumenta exponencialmente. Outra coisa a se considerar ´e que s˜ao necess´arios valores iniciais para gerar amostras de cadeias estoc´asticas, para dissipar o efeito destes valores, 10% das observa¸c˜oes foram exclu´ıdas do inicio das amostras.
Tudo isso considerado, definiu-se d = blog|A|n
2 c − 1. Esta equa¸c˜ao para d foi proposta
para que este n˜ao aumentasse tanto em fun¸c˜ao de n, permitindo a operacionaliza¸c˜ao das simula¸c˜oes. Como o aumento de n n˜ao ´e t˜ao oneroso quanto o aumento de uma unidade em d, propˆos-se encontrar o maior n para um determinado d, ou seja encontrar o n que “satura” d. Dessa forma, n ≈ |A|2d+4.
Como tamb´em ´e necess´ario apagar o efeito dos valores iniciais utilizados na gera¸c˜ao da amostra, ´e preciso encontrar um N tal que 0,9N = n, e este ser´a o valor utilizado para gerar as amostras. Por exemplo, para ter d = 4 ´e preciso que 1024 < n < 4096, assim, ´e necess´ario que 0,9N < 4096, ent˜ao 1138 ≤ N ≤ 4551. Se N = 4552, ent˜ao n = 4096,8 e d = 5, nesse cen´ario passa a ser necess´ario contar tamb´em a quantidade de repeti¸c˜oes de sequˆencias de tamanho 6. Al´em do custo de ter 26 sequˆencias a
mais para contar, existe o risco dessas sequˆencias n˜ao ocorrerem suficientemente neste tamanho de amostra.
Veja na Tabela 2 uma rela¸c˜ao dos valores m´aximos de n e N para alguns valores de d. d n N 3 1.023 1.137 4 4.095 4.551 5 16.383 18.204 6 65.535 72.817 Tabela 2: Rela¸c˜ao d versus n
3.2
Simula¸c˜ao
A partir da discuss˜ao na se¸c˜ao anterior foi poss´ıvel construir um algoritmo para si- mula¸c˜ao de amostras de cadeias estoc´asticas e investiga¸c˜ao da distribui¸c˜ao de δ.
O processo consiste em, dado um τ0, um N , um e alguns valores iniciais, simular
amostra de tamanho n. A partir de n calcula-se d, lista-se todas as sequˆencias poss´ıveis de tamanhos k ≤ d + 1, e contabiliza-se as quantidades de suas ocorrˆencias a fim de estimar as probabilidades de transi¸c˜ao.
Conforme o Exemplo 3.1, a partir dessas probabilidades estimadas, ´e poss´ıvel calcular um IAδ, se este existir1. Nesse caso, pode-se calcular as diferen¸cas entre as probabilidades
de transi¸c˜ao e, dado um valor δ ∈ IAδ, estimar uma ´arvore atrav´es do Algoritmo Contexto.
Naturalmente, se IAδ existe, ent˜ao a ´arvore estimada ´e τ0.