Representação de sequências de DNA através do Jogo do Caos (CGR)

(1)

Representação de

sequências de ADN

através do Jogo do

Caos (CGR)

Mónica Torres Coelho

Dissertação de Mestrado apresentada à

Faculdade de Ciências da Universidade do Porto em

Engenharia Matemática

2019

R ep resen taç ão de se qu ên cias de D N A atr av és do Jo go do C ao s ( C G R ) M ó n ica T o rr es Co elho

MSc

FCUP 2019 2.º CICLO

(2)

(3)

Representação de

sequências de ADN

através do Jogo do

Caos (CGR)

Mónica Torres Coelho

Mestrado em Engenharia Matemática

Departamento de Matemática 2019

Orientador

(4)

(5)

Todas as correções determinadas pelo júri, e só essas, foram efetuadas.

O Presidente do Júri,

(6)

(7)

Resumo

Neste trabalho é apresentado um método que serve como ferramenta para revelar padrões em diferentes sequências de ADN. Este método é denominado como Representação do Jogo do Caos (CGR) e é descrito por um sistema de funções iteradas (IFS).

Vamos estudar sequências de ADN de grupos diferentes e comparar os seus padrões.

Palavras-chave: Representação do Jogo do Caos, CGR, sequência de ADN, IFS, padrões de um gene

(8)

(9)

Abstract

In this work is presented a method which serves us as a tool to reveal patterns in different ADN sequences. This method is called Caos Game Representation (CGR) and is described by a system of iterated functions (IFS).

We’ll study ADN sequences from different groups and compare their patterns.

(10)

(11)

Conteúdo

Introdução 3

1 Preliminares de Biologia Molecular 6

1.1 Introdução ao ADN . . . 6

1.2 Representação formal de uma sequência de ADN . . . 8

2 Representação de sequências de ADN por Sistemas guiados iterados de funções (GIFS) 13 3 IFS com memória 19 4 IFS guiados e análise de dados 30 4.1 IFS guiados . . . 30

4.2 IFS guiado por uma série temporal . . . 32

4.3 Análise da série temporal . . . 37

5 Resultados e trabalhos futuros 40 5.1 CGR da sequência de ADN do cromossoma 21 de um Homo Sapiens . . . 41

5.1.1 Probabilidades dos nucleótidos . . . 42

5.1.2 Análise do fractal . . . 42

5.1.3 Ajuste de probabilidades . . . 43

5.2 CGR da sequência de ADN de uma hemoglobina humana . . . 45

5.3 CGR da sequência de ADN de uma mitocôndria de um Homo sapiens . . . 48

5.4 Archaeoglobus fulgidus DSM 4304 . . . 52

5.5 Mycobacterium tuberculosis . . . 56

(12)

ii FCUP

Representação do Jogo do Caos (CGR) de sequências de ADN

5.6 Photorhabdus asymbiotica . . . 59

5.6.2 Análise do fractal . . . 60 5.6.3 Ajuste de probabilidades . . . 60 Conclusões 62 Glossário 65 APPENDICES 68 A Código Matlab 69 A.1 readFastaFile . . . 69 A.2 makeMatrixOfWords . . . 69 A.3 buildDNAStrand . . . 70 A.4 buildComplementarDNA . . . 71 A.5 calculateFrecuencies . . . 71 A.6 fcgr2 . . . 72 A.7 test . . . 74

B Tabelas das frequências 76 B.1 Cromossoma 21 de um Homo sapiens . . . 77

B.2 Hemoglobina humana . . . 78

B.3 Mitocôndria de um Homo Sapiens . . . 79

B.4 Archaeoglobus fulgidus DSM 4304 . . . 80

B.5 Mycobacterium tuberculosis . . . 81

B.6 Photorhabdus asymbiotica . . . 82

C Outros resultados 83 C.1 Leucemia - Homo sapiens . . . 84

C.2 Cancro da próstata - Homo sapiens . . . 85

C.3 Tumor no complexo central - Homo sapiens . . . 86

C.4 Cancro de pulmão - Homo sapiens . . . 87

C.5 Homo sapiens amyotrophic lateral sclerosis . . . 88

(13)

Lista de Tabelas

3.1 Código IFS sem memória para o fractal representado no canto superior direito da figura 3.6 . . . 26 5.1 Código IFS para o triângulo de Sierpinski, com início no canto inferior esquerdo do

quadrado . . . 50 B.1 3-mers da sequência de ADN do cromossoma 21 de um Homo sapiens representada

na figura 5.1 e sua respetiva abundância e frequência (2.7) . . . 77 B.2 3-mers da sequência de ADN de uma hemoglobina humana representada na figura

5.4 e sua respetiva abundância e frequência (2.7) . . . 78 B.3 3-mers da sequência de ADN de uma mitocôndria de um Homo Sapiens

represen-tada na figura 5.7 e sua respetiva abundância e frequência (2.7) . . . 79 B.4 3-mers da sequência de ADN de um Archaeoglobus fulgidus DSM 4304 representada

na figura 5.11 e sua respetiva abundância e frequência (2.7) . . . 80 B.5 3-mers da sequência de ADN de um Mycobacterium tuberculosis representada na

figura 5.15 e sua respetiva abundância e frequência (2.7) . . . 81 B.6 3-mers da sequência de ADN de um Photorhabdus asymbiotica representada na

figura 5.17 e sua respetiva abundância e frequência (2.7) . . . 82

(14)

(15)

Lista de Figuras

1.1 ORF’s do bacteriófagoφ − X174. . . 8

1.2 Fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAG-GACTGTGTGACTA lido na direção50→ 30 em 3 sequências . . . 8

1.3 Start-codon e stop-codon da sequência S . . . 9

1.4 Janela de comprimento três ao longo da sequência S . . . 9

1.5 Algoritmo (parte 1) . . . 10

2.1 GIFS-órbita da sequência de ADN S=TGAG. . . 15

3.1 Uma ilustração de subquadrados deQ, com os respectivos endereços . . . 19

3.2 Primeiro: o fractal gerado pela proibição da composição Ψ4 ◦ Ψ1 – Q14 = QAG é vazio. Segundo: rotulagem dos endereços vazios de comprimento 2 e comprimento 3 da primeira imagem. Terceiro: O fractal gerado pela proibição deΨ4◦ Ψ1◦ Ψ1 – Q114 é vazio. . . 20

3.3 Na segunda imagem vemos que os quadrados com endereços11, 23, 32e44estão vazios. Dizemos que esses endereços são pares proibidos. . . 21

3.4 Da segunda imagem vemos os endereços de comprimento 2 vazio e também os endereços de comprimento 3: 41, 44, 411 , 412, 442, 413, 443, 414, 111, 114. A “bold face" estão os pares proíbidos e os triplos proíbidos que deles são consequência. 22 3.5 Atratores do Exemplo 1 (esquerda) e Exemplo 2 (direita). . . 23

3.6 Representação de grafos de transição de IFS (lado esquerdo) com os corresponden-tes fractais (lado direito). . . 24

3.7 Subdivisão do fractal representado no canto superior direito da figura 3.6 . . . 25

3.8 Representação de grafos de transição de IFS (lado esquerdo) com os corresponden-tes fractais (lado direito) . . . 27

4.1 IFS com as regras do quadrado com probabilidades: no lado esquerdo: p1 = p4 = 0.4,p2 = p3 = 0.1; no lado direito: p1 = 0.4, p2 = 0.3, p3= 0.2, p4 = 0.1 . . . 31

4.2 Primeiro: IFS guiado pela sequência de ADN da amilase. Segundo: Substituto do IFS guiado por um IFS com memória, onde temos o par 14 proibido. Terceiro: Substituto do IFS guiado por um IFS com memória, onde temos o par 14 proibido e comp1 ≈ 0.149,p2≈ 0.330,p3≈ 0.351ep4 ≈ 0.170 . . . 31

(16)

vi FCUP

4.3 Exemplo de uma série temporal com10000pontos de um modelo que prevê gerações de uma população de insetos, já com a divisão feita em caixas com o mesmo tamanho 33 4.4 IFS guiado pela série temporal da figura 4.3 . . . 33 4.5 Mesma série temporal representada na figura 4.3 mas com a divisão feita em caixas

com o mesmo peso . . . 34 4.6 Lado esquerdo: IFS guiado para a série temporal dividida em caixas de tamanho igual

representada na figura 4.3. Lado direito: IFS guiado para a série temporal dividida em caixas de peso igual representada na figura 4.5 . . . 34 4.7 Série temporal de um batimento cardíaco dividida em caixas de tamanho igual (canto

superior esquerdo), peso igual (canto superior direito) e centradas na mediana (parte inferior da figura) . . . 35 4.8 IFS’s guiados pelas diferentes divisões em caixas da série temporal representada na

figura 4.7 . . . 35 4.9 Série temporal dividida em regimes . . . 37 4.10 IFS guiado da série temporal representada na figura 4.9 . . . 38 5.1 CGR da sequência de ADN no cromossoma 21 de um Homo sapiens parak = 2, 4, 6

e8 . . . 41 5.2 CGR assinalado com o "duplo furo"; lado esquerdok = 4, lado direitok = 6 . . . 42 5.3 lado esquerdo: CGR da sequência de ADN, lado direito: IFS comp1 = 0.319,p2 =

0.306,p3= 0.191ep4 = 0.184 . . . 44

5.4 CGR da sequência de ADN de uma hemoglobina humana parak = 2, 4, 6e8 . . . . 45 5.5 CGR da sequência de ADN de uma hemoglobina humana assinalado com o "duplo

furo"; lado esquerdok = 4, lado direitok = 6 . . . 46 5.6 lado esquerdo: CGR da sequência de ADN de uma hemoglobina humana, lado

di-reito: IFS com probabilidades0.288,0.174,0.193e0.345para os nucleótidos A, C, G e T, respetivamente . . . 47 5.7 CGR da sequência de ADN de uma mitocôndria de um Homo sapiens parak = 2, 4, 6

e8 . . . 48 5.8 Divisão em triângulos da CGR comk = 6da sequência de ADN de uma mitocôndria

de um Homo sapiens . . . 49 5.9 lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,

lado direito: IFS do triângulo . . . 50 5.10 lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,

lado direito: IFS com probabilidades0.308, 0.313,0.132e0.247 para os nucleótidos A, C, G e T, respetivamente . . . 51 5.11 CGR da sequência de ADN de uma Archaeoglobus fulgidus DSM 4304 parak =

2, 4, 6e8. . . 52 5.12 Cópias de menor escala de todo o fractal representado pela CGR da sequência de

ADN de um Archaeoglobus fulgidus DSM 4304 comk = 8 . . . 54 5.13 Divisão em quadrados do fractal dado pela CGR da sequência de ADN de uma

(17)

FCUP Representação do Jogo do Caos (CGR) de sequências de ADN vii

5.14 lado esquerdo: CGR da sequência de ADN, lado direito: IFS com probabilidades

0.258,0.242,0.244e0.256para os nucleótidos A, C, G e T, respetivamente . . . 55 5.15 CGR da sequência de ADN de uma Mycobacterium tuberculosis parak = 2, 4, 6e8. 56 5.16 lado esquerdo: CGR da sequência de ADN de uma Mycobacterium tuberculosis, lado

direito: IFS com probabilidades0.172,0.329,0.327e0.172para os nucleótidos A, C, G e T, respetivamente . . . 58 5.17 CGR da sequência de ADN de uma Photorhabdus asymbiotica parak = 2, 4, 6e8 . 59 5.18 CGR da sequência de ADN de uma Photorhabdus asymbiotica (lado esquerdo); IFS

com probabilidades 0.288, 0.211, 0.210 e 0.291 para os nucleótidos A, C, G e T, respetivamente (lado direito) . . . 60 C.1 CGR da sequência de ADN de um tumor num Homo sapiens - leucemia - parak =

2, 4, 6e8. . . 84 C.2 CGR da sequência de ADN de um cancro na próstata de um Homo sapiens, com

k = 2, 4, 6e8 . . . 85 C.3 CGR da sequência de ADN de um tumor no complexo central de um Homo sapiens,

parak = 2, 4, 6e8 . . . 86 C.4 CGR da sequência de ADN de um tumor no pulmão de um Homo sapiens, para

k = 2, 4, 6e8 . . . 87 C.5 CGR da sequência de ADN de um carcinoma, parak = 2, 4, 6e8. . . 88 C.6 CGR da sequência de ADN do vírus da varíola, parak = 2, 4, 6e8 . . . 89

(18)

(19)

Lista de Abreviaturas

nucs - nucleótidos

ORF - Open Reading Frame

CGR - Representação do Jogo do Caos IFS - Sistema de Funções Iteradas ADN - Ácido Desoxirribonucleico bp - Par de Bases

(20)

(21)

Introdução

O ADN é uma cadeia de informação muito importante para adquirirmos conhecimentos sobre um determinado organismo. Estas cadeias encontram-se presentes em todas as formas de vida.

Cada sequência de ADN é única. A análise desta é como a revelação da identidade do ser já que cada ser possui uma sequência de ADN diferente.

Ao longo da evolução da biologia molecular, em particular, do sequenciamento de ADN, foram reconhecidos alguns fractais na estrutura do ADN. O matemático Benoit Mandelbrot, na década de 1970, descreveu os objetos auto-similares apelidando-os como fractais (do latim fractus, que significa fraturado). Os fractais são conhecidos por apresentarem a mesma estrutura em diferentes escalas de observação. Ou seja, se ampliarmos um fractal, esta ampliação vai ter o mesmo aspeto do fractal original. Os fractais são estruturas complexas, com diversos detalhes intrincados. (10) (15)

Nesta tese vamos usar o Jogo do Caos para representar sequências de ADN como fractais. Este método, CGR (Chaos Game Representation), permite-nos criar padrões que posteriormente vamos analisar e comparar. O Jogo do Caos, introduzido por Michael Barnsley, é descrito mate-maticamente por um sistema iterado de funções (IFS). No entanto, ao contrário destas, o sistema dinâmico do jogo do caos não é determinístico. Pelo contrário, é um sistema dinâmico estocástico. Aplicar a mesma regra várias vezes ao mesmo ponto não produzirá sempre o mesmo resultado, pois o resultado depende do canto para o qual se move. (11)

Este sistema dinâmico é um procedimento aleatório que pode gerar fractais. Para obtermos tal resultado vamos iterar uma regra e analisar o seu comportamento a longo prazo. Para isso, vamos considerar um quadrado (onde cada vértice corresponderá a um nucleótido). O Jogo do Caos (CGR) é um caso particular de um IFS ("Iterated Function System", Sistema de Funções Iteradas).

O matemático John Hutchinson formalizou o método IFS para analisar e construir fractais, e Michael Barnsley, fundador da empresa Iterated Systems Inc., popularizou esta técnica e apelidou-a com o termo IFS. O IFS é apelidou-a únicapelidou-a papelidou-arte dapelidou-a geometriapelidou-a frapelidou-actapelidou-al que pode rivapelidou-alizapelidou-ar com o conjunto de Mandelbrot (6) na sua capacidade de produzir imagens fascinantes. Tudo o que precisamos de aprender é como reconhecer a simetria sob a ampliação e como manipular formas no plano. Esta habilidade abre um mundo de imagens selvagens que podem ser controladas pelo nosso entendimento de escala e geometria. (12)

Se uma sequência de números é usada para produzir um atrator, para um determinado código IFS, e se esse atrator for visualmente observável, então, intuitivamente, revelamos alguma estrutura subjacente na sequência de números.

Podemos usar o Jogo do Caos para exibir visualmente certos tipos de não aleatoriedade. A não aleatoriedade significa que uma sequência tem uma certa "estrutura".

(22)

4 FCUP

Vamos começar por introduzir algumas noções básicas de biologia molecular, no capítulo 1. Em seguida vamos ver como representar as sequências de ADN através de um IFS no capítulo 2. Abordaremos também especificidades dos IFS’s nos capítulos 3 e 4. E, por fim, representaremos sequências de ADN, retiradas da plataforma GenBank, pelo método do Jogo do Caos, no capítulo 5.

(23)

(24)

Capítulo 1

Preliminares de Biologia Molecular

1.1 Introdução ao ADN

Como primeira definição, podemos dizer que um genoma é o conjunto de todas as sequências de ADN contidas numa célula. O genoma é formado por uma ou mais sequências de ADN, juntas nos cromossomos.

No entanto, adotamos uma representação mais formal dos genomas como palavras de um alfabeto, como é usual em genómica computacional e Bioinformática.

Definição. Sequências de ADN e genomas: modelo formal Uma sequência de ADN,S, é uma palavra finita no alfabetoN = {A,C,G,T} de nucleótidos (nucs). Um genoma é o conjunto de todas as sequências de ADN associadas a um organismo ou organelo.

A informação sobre a hereditariedade dos organismos (exceto para os chamados vírus de RNA) está codificada na sua sequência de ADN, que é um polímero não ramificado unidimensional, feito de quatro diferentes tipos de monómeros (nucleótidos): adenina (A), citosina (C), guanina (G) e timina (T). No que diz respeito à informação codificada, podemos ignorar o fato de que o ADN existe como uma dupla hélice de dois filamentos “conjugados" e tratá-lo apenas como um sequência simbólica unidimensional - uma palavra - construída com as quatro letras do alfabeto de nucleótidos

N = {A,C,G,T}.

A informação contida num genoma é armazenada em vários níveis, o mais básico dos quais associa cada aminoácido de cada proteína codificada por um gene a um único codon, i.e., a um único tripleto de nucleótidos de ADN (codon). Além deste código elementar, sinais de “pontuação" simples identificam o início e o fim dos genes. Para além destes dados “brutos", o genoma contém sinais de expressão, regulação e splicing alternativo (em células eucarióticas) que governam como as células implementam as informações que contém. O genoma também contém sinais específicos, não relacionados à expressão da mensagem genética, e que dizem respeito ao metabolismo da própria molécula de ADN, incluindo replicação, recombinação, metilação e sítios de restrição.

Esses dados são todos codificados na sequência do ADN e, muitas vezes, sobrepõem-se. Os genes contêm assim locais de metilação e recombinação; certos genes sobrepõem-se parcial-mente; os sinais de expressão de um gene estão às vezes localizados dentro de outro ... A des-coberta destes vários níveis de codificação é de importância primordial para o biólogo que busca

(25)

FCUP Representação do Jogo do Caos (CGR) de sequências de ADN 7

acesso à informação contida no genoma para entender as funções da matéria viva, bem como para conceber experiências e analisar os resultados.

A tecnologia da informação pode ser usada para extrair a informação de forma eficiente codi-ficado em ADN. O restante deste capítulo lembra e descreve vários tipos de sinais codicodi-ficados no ADN, bem como padrões e sequências específicas com os quais estão associados.

Todo o genoma de um organismo pode ser revelado a partir de amostras, usando uma das vá-rias tecnologias de sequenciação de ADN, cada uma produzindo um grande número de fragmentos de ADN de vários comprimentos que são então montados na sequência de ADN das moléculas na mitocôndria ou no núcleo (para eucariotos) ou no citoplasma (para procariontes) das células. Os ge-nomas inteiros de milhares de espécies existentes já foram sequenciados, incluindo 111 gege-nomas de arqueas, variando de 1 668 a 5 751 492 nucleótidos (nucs); 2167 genomas bacterianos com 846 a 13 033 779 nucs; 2 593 genomas eucariota com 1 028 a 748 055 161 nucs; 2 651 genomas virais com 200 a 1 181 404 nucs; etc.. Espécies existentes representam apenas uma pequena fração da diversidade genética que já existiu. No entanto, genomas inteiros de espécies extintas também podem ser sequenciados a partir de amostras de tecido bem conservadas.

Uma vez que o genoma de uma espécie tenha sido sequenciado, um dos primeiros passos para compreender o seu significado consiste na identificação de genes que codificam para proteínas. Nos genomas procarióticos, a sequência codificadora de uma proteína consiste numa sequência contígua chamada ORF (Open Reading Frame), enquanto que nos genomas eucarió-ticos, a sequência codificadora é cindida em vários exons de codificação, separados por introns não-codificantes. Estes exons podem ser combinados em diferentes arranjos para codificar diferen-tes proteínas pelo processo celular de cisão alternativo.

Exemplo. A sequência de ADN do bacteriófago φ − X174, que foi o primeiro genoma a ser se-quenciado, possui 11 genes codificadores de proteínas dentro de uma única cadeia circular de 5 368 nucs. Um desses genes é mostrado em destaque, numa parte abaixo descrita do genoma: GATGTAATGTCTAAAGGTAAAAAACGTTCTGGCGC TCGCCCTGGTCGTCCGCAGCCGT TGCGAGGTACTAAAGGCAAGCGTAAAGGCGCTCGTCTTTGG TATGTAGGTGGTCAACA ATTTTAATTGCA...

As regiões codificadoras de proteínas de uma sequência de ADN são primeiramente transcritas em mRNA e depois traduzidas em proteína. Um codon de três nucleótidos de ADN é transcrito num codon de três nucleótidos de RNA complementares, que é traduzido, por sua vez, num único aminoácido dentro de uma proteína. Um fragmento de uma sequência simples de ADN tem três ORF’s possíveis, e a tradução ocorre num ORF, uma sequência de codons que se inicia com um certo start-codon e continua até um certo stop-codon (não contém mais nenhum stop-codon no meio).

O ORF 2 da sequência de ADN do bacteriófago φ − X174 do exemplo anterior contém 15 ORF’s com mais de 108 nucs, que podem potencialmente codificar para proteínas com mais de 36 aminoácidos. Somente dois deles, mostrados em destaque na figura 1.1, realmente codificam uma proteína.

(26)

8 FCUP

Fig. 1.1. ORF’s do bacteriófagoφ − X174

o fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAGGACTGTGT-GACTA pode ser lido na direção50 → 30nas 3 sequências representadas na figura 1.2.

Fig. 1.2. Fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAGGACTGTGTGACTA lido na direção50 → 30_{em 3 sequências}

Um fragmento de uma cadeia dupla de ADN, por outro lado, tem seis possíveis sequências de leitura, três em cada direção. Um ORF começa com o start-codon ATG (metionina), na maioria das espécies, e termina com um stop-codon TAA, TAG ou TGA. A identificação dos genes que codificam proteínas numa sequência de ADN é uma tarefa difícil. Mesmo um organismo simples, como o bacteriófagoφ − X174, com uma sequência de ADN simples de apenas 5 368 nucs, tem um total de 117 ORF’s, dos quais apenas 11 realmente codificam para uma proteína.

Existem vários outros sinais e informações biológicas que ajudam o biólogo na tarefa de encon-trar genes. Por exemplo, sabe-se que a proteína conhecida com a menor sequência de aminoácidos tem apenas 8 aminoácidos e, por isso, ORF’s com menos do que3 + 24 + 3 = 30nucs, não podem codificar uma proteína. Um primeiro problema algorítmico consiste em extrair todos os ORF’s nas três sequências de leitura de um fragmento simples de ADN, ou nas seis numa cadeia dupla de ADN. (14) (18) (3)

1.2 Representação formal de uma sequência de ADN

Dada uma sequência de ADNS com nnucs, representamos por S[i]o i-ésimo nucleótido de

(27)

GCCATGATGGTGGTTATTATACCGTCAAG-FCUP Representação do Jogo do Caos (CGR) de sequências de ADN 9

GACTGTGTGACTA, comn = 45nucs,S[1] =G, S[2] = T, S[3] = C eS[n] =A. S[i, · · · , j], onde

i ≤ j, representa o fragmento deS contendo os nucleótidosS[i], S[i + 1], · · · , S[j]. Por exemplo,

S[1, · · · , 4] =GTCG eS[1, · · · , n] = SeS[i, · · · , i] = S[i].

Com essa notação, um ORF é um fragmentoS[i, · · · , j], de comprimentoj − i + 1, tal que

S[i, · · · , i + 2] é o start-codon ATG e S[j − 2, · · · , j] é um dos stop-codons TAA, TAG ou TGA. Pela observação anterior,S tem que ter pelo menos 30 nucs, isto é,j − i + 1 > 30, e não pode conter nenhum outro stop-codon, isto é, deve também satisfazer a condição S[k, · · · , k + 2] /∈ {TAA, TAG, TGA}parai+3 ≤ k ≤ j−6. Por exemplo, na sequênciaS = GTCGCCATGATGGTGGT-TATTATACCGTCAAGGACTGTG TGACTA,S[7, · · · , 42]é um ORF, já que se inicia com o star-codon

S[7, · · · , 9] = ATG e termina com o stop-codonS[40, · · · , 42] = TGA, não tendo qualquer outro stop-codon entreS[10]eS[39].

Fig. 1.3. Start-codon e stop-codon da sequência S

O ORF determina uma partição da sequência de ADNS em codons com três nucleótidos con-secutivos. No ORF 1, o primeiro codon é S[1, · · · , 3], o segundo codon éS[4, · · · , 6]e assim por diante. No ORF 2, no entanto, o primeiro codon é S[2, · · · , 4], e o segundo codon éS[5, · · · 7]. O primeiro codon no ORF 3 éS[3, · · · 5].

Num dado ORF, os codons podem ser detectados deslizando uma janela de comprimento três ao longo da sequência, começando na posição 1, 2 ou 3, dependendo do ORF.

Fig. 1.4. Janela de comprimento três ao longo da sequência S

Consideremos, como primeiro exemplo, o problema de encontrar um ORF numa sequência, e sejaS[k, · · · , k + 2]o codon sob a janela deslizante. Começando com uma posição inicialk, dada pela sequência de leitura, a janela deslizante deve ser deslocada por três nucleótidos de cada vez, até atingir um start-codon, e depois continuar deslizando novamente de 3 em 3 nucleótidos até atingir um stop-codon. Esta descrição não é totalmente exacta já que a sequência de ADN dada pode não conter qualquer start-codon, ou pode conter um start-codon mas nenhum stop-codon, e a busca pelo início ou fim do ORF pode ultrapassar o fim da sequência.

O primeiro start-codon na sequência de leitura que se inicia nak-ésima posição de uma de-terminada sequência de ADN com n nucleótidos, pode ser encontrado deslizando uma janela

(28)

10 FCUP

No algoritmo seguinte, a posição inicialido candidato a start-codon é incrementada de três em três, desde que o codon não caia fora da sequência (isto é,i + 2 ≤ n) e não seja já um start-codon (isto é,S[i, ..., i + 2] 6=AGT).

Fig. 1.5. Algoritmo (parte 1)

Depois de ter encontrado um start-codonS[i, · · · , i + 2], o primeiro stop-codon pode ser encon-trado ao deslizar uma janelaS[j, · · · , j + 2]de três nucleótidos, desta vez ao longoS[i + 3, · · · , n], até quej + 2 > nouS[j, · · · , j + 2] /∈ {TAA, TAG, TGA}. Agora, o problema de extrair o primeiro

ORF numa sequência de leitura que se inicia na posição kde uma sequência de ADNS de com-primentonpode ser resolvido juntando a busca por um start-codon e a busca por um stop-codon. Na descrição seguinte, o start-codon éS[i, · · · , i + 2]e o stop-codon éS[j, · · · , j + 2]e, portanto, o ORF éS[i, · · · , j + 2].

Desde que o primeiro genoma completo da bactéria Mycoplasma genitalium foi sequenciado em 1995, um número cada vez maior de genomas completos estão acessíveis em bases de

(29)

da-FCUP Representação do Jogo do Caos (CGR) de sequências de ADN 11

dos públicas, como por exemplo, GENBANK(23). A disponibilidade de genomas completos abre a possibilidade de tentar responder a algumas perguntas globais sobre essas sequências. Uma dessas questões consiste em verificar se existem sequências curtas ausentes ou, pelo menos, sub-representadas num certo genoma completo. De facto, é possível tratar esta questão cuja resposta poderá ter algum significado biológico.

Existem duas razões que justificam o interesse por strings ausentes (ou proíbidas) ou sub-representadas. Em primeiro lugar, esta pergunta só pode ser feita nos dias de hoje quando temos à nossa disposição genomas completos. Em segundo lugar, a questão faz sentido já que, como ve-remos, é possível derivar uma linguagem factorial, a partir de um genoma completo, inteiramente definida pelo conjunto das palavras (strings) proibidas.

Em primeiro lugar vamos começar por expor um método de visualização de strings proibidas e sub-representadas num genoma bacteriano cujo comprimento é geralmente da ordem de um milhão de letras (nucleótidos) de N. Para isso recorremos aos chamados Sistemas iterados de funções (Iterated Function Systems = IFS) com memória (capitulo 3). (14)(13)

(30)

(31)

Capítulo 2

Representação de sequências de ADN

por Sistemas guiados iterados de

funções (GIFS)

Seja VA = (0, 0);VT = (1, 0);VG = (1, 1)e VC = (0, 1), e definamos, ∀x ∈ Q = [0, 1]2, o

Sistema Iterado de Funções (IFS) em Q, que consiste das seguintes quatro transformações afins

Ψi(x) = x+ 1 2(Vi−x) = 1 2(x+Vi), onde i ∈ {A,T,C,G} e x∈Q (2.1)

De acordo com Barnsley, representamos este IFS por:

IFS= {Q; ΨA, ΨT, ΨC, ΨG} (2.2)

As quatro transformações afins são contracções com factor de contracção1/2.

Seja S = s1s2· · · sn uma sequência de ADN, com comprimento n, onde cada si ∈ N =

{A,T,C,G}. A GIFS-órbita de S (GIFS = Guided Iterated Function System), GIFS(S), é a sequên-cia de pontos que representam os sucessivosi-prefixos,{S(1 : i)}n_i=1= {s1s2· · · si}n_i=1, de S, isto

é:

GIFS(S) = {x(s(1 : i))}n_i=1 (2.3)

definidos recursivamente por:

x(S(1 : i)) = Ψsi(x(S(1 : i − 1))) = 1 2(x(S(1 : i − 1)) +Vsi) = 1 2Vsi+ 1 22Vsi−1 + · · · + 1 2i−1Vs2 + 1 2iVs1 + 1 2ixo (2.4) parasi ∈ {A,T,C,G},i = 1, 2, · · · , ne xo = (1/2, 1/2).

13

(32)

14 FCUP

Exemplo. Seja S=ACGTCACGCG. Então:

x(A) =xA = ΨA(xo) = 1 2VA+ 1 2xo x(AC) =xAC = ΨC◦ ΨA(xo) = 1 2VC+ 1 22VA+ 1 22xo x(ACG) =xACG = (ΨG◦ ΨC◦ ΨA)(xo) = 1 2VG+ 1 22VC+ 1 23VA+ 1 23xo .. . x(ACGTCACGCG) = xACGTCACGCG = (ΨG◦ ΨC◦ · · · ◦ ΨA)(xo) = 1 2VG+ 1 22VC+ 1 23VG+ · · · + 1 28VG+ 1 29VC+ 1 210V1+ 1 210xo

Note que a indexação do ponto x segue a ordem contrária à da composição das transformações

Ψ. Essa indexação chama-se o endereço do ponto x ou (do prefixo) da sequência de ADN que ele representa.

Representando por Q = [0, 1]2 o quadrado unitário com vértices Vi onde i ∈ {A,T,C,G},

notamos que, por exemplo, ΨA(Q) = QA = [0, 1/2]2, o subquadrado no canto inferior esquerdo,

indexado pelo seu centro A= (1/22, 1/22),ΨT(Q) =QT= [1/2, 1]×[0, 1/2], o subquadrado inferior

direito, indexado por seu centro T e assim por diante. Aplicamos então o mesmo IFS a cada um desses subquadrados. Por exemplo, aplicando o IFS a QA, obtemos os quatro subsubquadrados,

com lado de comprimento 1

22:

QAA= ΨAΨA(Q);QAT= ΨTΨA(Q);QAG= ΨGΨA(Q);QAC= ΨCΨA(Q)

rotulados pelos centros AA, AT, AG e AC, como na Fig. 2.1. A estes subsubquadrados chamamos

2-células ou2-pixels (pixels na resolução2−2). Repetimos a construção: por exemplo, aplicamos o IFS a QAC(a parte A de QC) para obter as3-células ou3-pixels (pixels na resolução2−3, com lado

de comprimento 1

23:

QACA = ΨAΨCΨA(Q);QACT= ΨTΨCΨA(Q);QACG= ΨGΨCΨA(Q);QACC= ΨCΨCΨA(Q)

indexados pelos seus centros ACA, ACT, ACG, e ACC, respectivamente (ver a Fig. 2.1). (16) Podemos dizer, por exemplo, que QACGé a parte A da parte C de QG. Note que

QACG⊂QCG ⊂QG

Em geral temos que na etapa k, o quadrado Q estará subdividido em4k k-células (ou k-pixels), cada uma com lado de comprimento2−k. O centro de cada uma destask-células representa um

k-mer. Portanto existem 16 dinucleotídeos (ou2-mers), 64 codões ou3-mers, etc.

A GIFS-órbita da sequência dos sucessivos prefixos de S= s1s2· · · sn, é representada por uma

(33)

de S=TGAG, é representada na Fig. 2.1, pela sequência de pontos

T−→TG−→TGA−→TGAG

o primeiro ponto = centro de QT, o segundo ponto = centro da parte T de QG, o terceiro ponto =

centro da parte T da parte G de QA, etc.

GIFS-órbita : T −→ TG −→ TGA −→ TGAG −→ · · ·

Endereços: T −→ TG −→ TGA −→ TGAG −→ · · ·

∈ ∈ ∈ ∈ · · ·

Células QT QTG QTGA QTGAG · · ·

O endereço TGA, por exemplo, é uma coordenada sequencial: lida da esquerda para direita, TGA

−−−→, o que significa que a sequência de transformações que movem o ponto xo ∈Q para a célula

QTGAéΨA(ΨG(ΨT(xo))). Este último ponto pertence à célula QTGA. Dado um qualquer x∈Q, para

atingir QTGA, aplicamos primeiroΨT, que nos leva para a célula QT. De seguida aplicamosΨG, que

nos leva para QTG⊂QG, que é a parte T de QG. FinalmenteΨAleva-nos para QTGA⊂QA, que é a

parte T da parte de G de QA.

Fig. 2.1. GIFS-órbita da sequência de ADN S=TGAG.

Em genómica S = s1s2· · · sn, é uma sequência longa e finita de tamanho |S| = n, digamos

n = 2.9 × 109 para o número de nucleótidos no ADN humano.

A GIFS-órbita de S pode ser representada por uma sequência de pontos em Q, como foi indi-cado anteriormente, produzindo uma imagem de S. Tais imagens podem ser usadas para identificar padrões em S e usadas, por exemplo, para distinguir diferentes tipos de ADN. Como a GIFS-órbita de S está contida no atractor do IFS, a forma como lá se situa, e a relação entre o processo de-terminista de representação desta órbita, especificado pela cadeia de nucleótidos de S, e a órbita

(34)

16 FCUP

estocástica, poderá fornecer um padrão ou uma assinatura de S.

Suponhamos que temos duas sequências R=R(1 : n)e S=S(1 : m), tais que

R(n − k + 1 : n) =S(m − k + 1 : m) =n1n2· · ·nk

ou seja, os últimos k ≥ 1 nucleótidos, n1n2· · ·nk, são os mesmos em ambas sequências. Por

outras palavras, as duas sequências têm o mesmo sufixo de comprimentok.

Sabemos que os dois últimos pontos x(R(1 : n)) e x(S(1 : m)) das GIFS-órbitas de R e S, respectivamente, estão ambos dentro da k-célula Qn1n2···nk, cujo lado tem comprimento igual a

1/2k_{. Portanto a distância Euclideana entre esses dois pontos satisfaz}

d(x(R(1 : n)),x(S(1 : m))) ≤ √

2

2k (2.5)

Exemplifiquemos - suponhamos que

R=ACGCCCGCAC, e S=CAGTTAACAGCAC

que partilham o mesmo sufixo R(7 : 10) = GCAC = S(10 : 13). Portanto os dois últimos pontos x(R(1 : 10))e x(S(1 : 13)) das GIFS-órbitas de R e S estão dentro da4-célula QGCAC, cujo lado

tem comprimento igual a 1

24 (ver Fig. 2.1).

Ainda um outro exemplo. Suponhamos que

S = ACGCACGCAGCACATT (2.6)

que tem repetido duas vezes o mesmo 4-mer, GCAC. Aplicando o que se disse antes às duas subsequências

S(1 : 6) =ACGCAC, e S(1 : 13) =ACGCACGCAGCAC

que partilham o mesmo sufixo GCAC, concluímos que os dois últimos pontos x(S(1 : 6))e x(S(1 : 13)) das GIFS-órbitas de S(1 : 6) e S(1 : 13), respectivamente, estão ambos dentro da 4-célula QGCAC, cujo lado tem comprimento igual a

1 24.

Em geral, dada uma sequência S, com comprimento|S| = n, se quisermos calcular os seus

k-mers, fazemos o seguinte - representamos a GIFS-órbita de S, GIFS(S) = {x(S(1 : i)) ∈Q}n i=1.

Como há 4k k-mers, consideramos uma grelha em Q, constituída por pequenos quadrados cujo lado tem comprimento igual 1/2k, ou k-pixels, indexados usando combinações apropriadas dos símbolos A,T,G,C∈ N, da forma como acima se indicou. Nesta grelha estão representados todos osk-mers, ou seja, todas as palavras deNk_{(palavras de comprimento}_k_{), do alfabeto}_N_.

Como vimos, na k-célula Qn1n2···nk, onde ni ∈ N, estão todos os pontos representativos de

todos os prefixos S(1 : i)de S, com1 ≤ i ≤ n, que partilham o mesmo sufixo n₁n₂· · ·n_k ∈ Nk_.

SejaNS(n1n2· · ·nk)o número de vezes que ok-mer n1n2· · ·nk ocorre em S. Este número é pois

igual ao número de pontos da GIFS-órbita de S, contidos Qn1n2···nk. Se dividirmos por|S| − k + 1

temos a frequência

fS(n1n2· · ·nk) =

NS(n1n2· · ·nk)

(35)

de ocorrência do k-mer n1n2· · ·nk em S. Usamos uma gama de cinzentosc ∈ [0, 1], ondec = 0

= branco e c = 1 = preto, para colorir cada k-célula com uma intensidade de cinzento igual a fS(n1n2· · ·nk). Obtemos desta forma a imagem da sequência S, que acima se referiu.

Vejamos um exemplo: S = TCGAACTCGCGAATCG, com|S| = 16ek = 3. A GIFS-órbita é constituída pelos pontos que representam os sucessivos sufixos:

T→TC →TCG →TCGA →TCGAA →TCGAAC →TCGAACT →TCGAACTC

→TCGAACTCG →TCGAACTCGC →TCGAACTCGCG →TCGAACTCGCGA

→TCGAACTCGCGAA →TCGAACTCGCGAAT →TCGAACTCGCGAATC

→TCGAACTCGCGAATCG (2.8)

Por exemploNS(CGA) = 2e fS(CGA) = 2/(16 − 3 + 1) = 1/7.

Convém guardar em memória, e disponibilizar como output, a sequência de comprimentos dos prefixos, digamosi1 < i2 < · · · < iNS que partilham o mesmo sufixo n1n2· · ·nk ∈ N

k_{. Assim no}

exemplo anterior a informação sobre o trinucleotídeo CGA que ocorre NS = 2vezes em S, deve

vir acompanhada dos comprimentos dos prefixos,i1 = 4 < i2 = 12que partilham o mesmo sufixo

CGA. A informação será dada na forma:

IS(CGA) = (CGA; 4, 12)

Em particular, é fácil calcular as repetições em tandem de uma palavra S, isto é, palavras do tipo abb onde a,b ∈ N∗. Basta procurar as células do tipo bb, na resolução k = 2|b|, e contar os prefixos que partilham o sufixo bb, juntamente com os comprimentos desses prefixos, digamos

i1 < i2 < · · ·. A informação será dada na forma:

(36)

(37)

Capítulo 3

IFS com memória

Daqui em diante usamos a correspondência

A↔ 1, T↔ 2, C↔ 3, G↔ 4

O IFS que nos interessa,I = {Ψ₁, Ψ2, Ψ3, Ψ4}, é constituído pelas quatro contrações emR2,

definidas por

Ψ1(x, y) = (x/2, y/2)

Ψ2(x, y) = (x/2, y/2) + (1/2, 0)

Ψ3(x, y) = (x/2, y/2) + (0, 1/2)

Ψ4(x, y) = (x/2, y/2) + (1/2, 1/2) (3.1)

Quando iterado,I preenche o todo o quadrado unitário Q.

As transformacões (3.1), induzem uma subdivisão do quadrado Q em subquadrados (pixels) cujos endereços são determinados pelas respetivas composições (Fig. 3.1).

Fig. 3.1. Uma ilustração de subquadrados de Q, com os respectivos endereços

Em geral o subquadrado, ouk-pixel, Qi1i2···ik, com endereçoi1· · · ik, é obtido pela composição

seguinte

Q_i₁_i₂···ik = Ψik◦ Ψik−1◦ · · · ◦ Ψi2◦ Ψi1(Q) (3.2)

Note que

Q_i_k ⊃Q_i_k−1_i_k ⊃ · · · ⊃Q_i₁···ik (3.3)

(38)

20 FCUP

Por exemplo, na Fig. 3.1, Q2 ⊃Q32. Q32é a parte3de Q2.

Os endereços podem ser interpretados como coordenadas espaciais: são lidos da esquerda para a direita, o que corresponde à leitura sequencial (da esquerda para a direita) do genoma que representam.

Consideremos, por exemplo, o endereço12324. Usando a equivalência A ↔ 1,T ↔ 2,C ↔ 3,G↔ 4, o endereço12324corresponde à palavra ATCTG. Em coordenadas espaciais,12324está no quadrado4. Dentro de4, encontra-se na parte2de4. Dentro de24, encontra-se na parte3de

24. Dentro de324, encontra-se na parte2de324, etc.

Se certas combinações de transformações forem excluídas temos o que chamamos um IFS com memória. Mais especificamente,

• um IFS I tem 1 passo de memória, ou é um 1-IFS (com memória) se determinados pares

Ψi◦ Ψj forem proíbidos. Esta informação pode ser codificada por uma matriz de transição

M = [mij], onde

mij =

(

0 se o parΨi◦ Ψj for proíbido

1 se o parΨi◦ Ψj for permitido.

Observe que seΨi2 ◦ Ψi1 é proíbido, também o será toda a composiçãoΨjk◦ · · · ◦ Ψj1 onde

i2ei1são dois índices consecutivos emjk· · · j1. (4)

• um IFSI tem 2 passos de memória, ou é um 2-IFS (com memória) se eventualmente alguns pares são proíbidos e se existem triplos Ψi3 ◦ Ψi2 ◦ Ψi1 proíbidos, onde o triplo i1i2i3 não

contém qualquer par proíbido.

• em geral, um IFS I temmpassos de memória, ou é um m-IFS (com memória) se existem combinações proíbidas de comprimento quando muito igual am + 1e pelo menos uma com-binação proíbida de comprimento(m + 1), que não contém qualquer combinação proíbida de comprimentoj, para1 ≤ j ≤ m.

Um IFS sem memória diz-se um 0-IFS. (2)

Fig. 3.2. Primeiro: o fractal gerado pela proibição da composição Ψ4◦ Ψ1 –

Q14 = QAG é vazio. Segundo: rotulagem dos endereços vazios de

compri-mento 2 e compricompri-mento 3 da primeira imagem. Terceiro: O fractal gerado pela proibição deΨ4◦ Ψ1◦ Ψ1– Q114é vazio.

Até agora, quais transformações são aplicadas em cada iteração não depende de quaisquer condições a priori. Aqui, vamos estudar o caso em que algumas combinações de transformações são proibidas.

(39)

As áreas representadas a branco num fractal, ou melhor dizendo, as áreas que não foram preenchidas, representam as combinações de transformações proibidas. Vamos ver a figura 3.2 como exemplo.(12)

Aqui, na primeira imagem vemos o fractal gerado pela proibição da composiçãoΨ4◦ Ψ1.

Sabe-mos à priori que o subquadrado com o endereço 14 (de comprimento 2) vai estar vazio. Observa-mos pela imagem que também teObserva-mos outros subquadrados vazios, de comprimento superior.

Sabemos que, se temos uma composição proibida então qualquer composição que contenha este endereço proibido também vai ser proibida. No exemplo, a composiçãoΨ4◦ Ψ1que representa

o endereço 14 é proibida, por isso, todos os endereços de comprimento maior, e que contenham a sequência 14, também serão proibidas. Assim as sequências 141, 142, 143 e 144 também são proibidas.

Na segunda imagem da Fig. 3.2, rotulamos os subquadrados vazios cujos endereços têm comprimento 3: 141, 142, 143e144.

Como cada quadrado vazio neste fractal pode ser explicado pelo par proibido inicial (par 14), pelo menos até aos endereços de comprimento 3, podemos dizer que este fractal é gerado por pares proibidos. Claro que para testar se um fractal é realmente determinado por pares proibidos, teríamos que verificar sequências arbitrariamente longas. (12) Mas, por agora, vamos nos contentar em verificar se todos os endereços de comprimento 3 vazios contêm um endereço vazio de 2 caracteres.

A terceira imagem da figura 3.2 é gerada pelas composições proibidasΨ4◦ Ψ1eΨ4◦ Ψ4◦ Ψ1.

Proibir a composição Ψ4 ◦ Ψ4 ◦ Ψ1 não é uma consequência da proibição de Ψ4 ◦ Ψ1, por isso

já não podemos dizer que este fractal é gerado por pares proibidos. Observamos também na terceira imagem, para cada endereço maior que 2, mais subquadrados vazios do que nas imagens anteriores, devido a esta nova proibição.

O nome IFS com memória é atribuído a estas construções pelo facto de que as transformações ocorridas no passado determinam quais transformações podem ocorrer a seguir.

Antes de analisarmos com mais detalhe os fractais com memória, vejamos como proceder na prática para detectar as palavras proíbidas.

(a). Primeiro, identificamos os endereços de comprimento 2 vazios, dividindo o quadrado Q numa grade4 × 4 de subquadrados menores e, em seguida, vemos os 2-endereços de todos os quadrados vazios dessa grade de malha 2−2. Na segunda imagem da Fig. 3.3, vemos que estes são 11, 23, 32e 44. Como estes quadrados estão vazios, dizemos que os seus endereços são pares proibidos.

Fig. 3.3. Na segunda imagem ve-mos que os quadrados com endereços

11, 23, 32 e 44 estão vazios. Dizemos que esses endereços são pares proibi-dos.

(40)

22 FCUP

(b). De seguida, encontramos todos os subquadrados2−2×2−2_{com 3-endereços que são vazios.}

Sabemos já alguns – por exemplo, como o endereço 32 está vazio, todos os endereços 321, 322 , 323, e 324 também estão vazios, uma vez que a única maneira de obter um ponto nesses endereços é aplicar uma das transformações a um ponto no quadrado 32, que está vazio.

De facto, todo o subquadrado vazio neste fractal pode ser explicado pelos quatro pares proi-bidos iniciais (pelo menos até aos 3-endereços), podemos dizer que este fractal é gerado por pares proibidos.

(c). Se tivéssemos encontrado alguns endereços de comprimento 3 vazios, mas não contendo qualquer endereço de comprimento 2 vazio, então o fractal não é gerado por pares proibidos e precisamos listar triplos proibidos para especificar o fractal.

Fig. 3.4. Da segunda imagem vemos os endereços de comprimento 2 vazio e também os endereços de comprimento 3: 41, 44, 411 , 412, 442, 413, 443, 414, 111, 114. A “bold face" estão os pares proíbidos e os triplos proíbidos que de-les são consequência.

Note que 111 e114 não contêm nenhum dos endereços vazios de comprimento 2. Clara-mente, nem todos os endereços vazios de comprimento 3 deste fractal são consequência de pares proíbidos - o fractal não pode ser determinado por pares proíbidos.

Representemos por Comp_(R2)o conjunto de todos os compactos_{K ⊂ R}2, munido da distân-cia Hausdorff h (20). Para um 0-IFSI, com n transformações contratoras Ψi : R2 → R2, i =

1, 2 · · · , n, definimos uma aplicaçãoΨ :Comp_(R2) −→Comp_(R2), através de

Ψ(K) = ∪n_i=1Ψi(K), K ∈Comp(R2) (3.4)

Ψé uma contracção em(Comp_(R2), h). Relativamente à métrica Hausdorffh,(Comp_(R2), h)

é completo, e, por isso, dado um qualquerK ∈Comp_(R2), a sequência

Ψ(K), Ψ2(K), Ψ3(K), · · ·

converge para um único A_I ∈Comp_(R2)que se chama o atractor do 0-IFSI. Pelo teorema do ponto fixo de Banach, sabemos que

Ψ(A_I) =A_I

. Nesta formulação, é importante notar que as transformçaões Ψi são aplicadas em todas as

composições possíveis, isto é,Ψ(C) = ∪n

i=1Ψi(C), Ψ2(C) = ∪j=1n ∪ni=1(Ψj◦ Ψi)(C)e assim por

diante.

Para um IFS,I = {Ψ1, · · · , Ψn}, o alfabetoA é{1, · · · , n}. No contexto que nos interessa

(41)

palavra mais longa emF tem comprimento m + 1. O m-IFS determinado porF proíbe todas as composições da forma Ψiq ◦ · · · ◦ Ψi2 ◦ Ψi1 ondei1· · · iq ∈ F. O conjunto de todas as palavras

proíbidas é o conjunto de todas as palavras do alfabetoA que contêm um elemento de F como subpalavra. Dizemos, por isso, queFgera a coleçãoPde todas as palavras proibidas, e notamos este facto porP = hF i.

Se A é o atrator de um IFS com memória, baseada nas transformaçõesI, então Ai1···iq =

A∩ Q_i₁···iq é a região do atrator com endereçoi1· · · iq. (5)

Exemplo 1:: 1-IFS comF = {11, 22, 33}. As regiõesQ11,Q22, eQ33, estão vazias, assim como

todas as regiões cujo endereço contêm as palavras11, 22ou33(Fig. 3.5 esquerda).

Fig. 3.5. Atratores do Exemplo 1 (esquerda) e Exemplo 2 (direita).

Exemplo 2: 1-IFS comF = {41, 23, 32, 144}As regiõesQ41,Q23,Q32eQ144estão vazias, assim

como todas as regiões cujo endereço contem as palavras41, 23, 32ou144(Fig. 3.5 direita).

Podemos usar uma representação através de um grafo com quatro vértices, rotulados1, 2, 3e

4, correspondendo respetivamente às contracções (3.3)Ψ1, Ψ2, Ψ3 eΨ4. Um arco orientado (ij)

existe sse a composiçãoΨj◦ Ψifor permitida (não proíbida). Observe a direção do arco e a ordem

da composição. O arco(ij)significa queΨjpode seguirΨi; se uma combinação não for permitida,

o respectivo arco é omitido. Este grafo diz-se o gráfico de transição do IFS. Alguns exemplos são mostrados nas figuras 3.6 e 3.8 (onde do lado esquerdo estão representados os grafos de transição e do lado direito o respectivo fractal).

Observando o fractal representado na parte de cima, do lado direito, da figura 3.6 vemos que os pares proibidos são o 33, 43, 23, 32, 42 e 22. Se imaginarmos linhas a dividir o fractal em 16 quadrados mais pequenos, ou seja, dividir o fractal em quatro quadrados e voltar a dividir, desta vez os quatro quadrados resultantes em quatro (como estudamos anteriormente), sabemos que os quadrados vazios serão os pares proibidos.

Para a construção do grafo de transição, consideramos um em que todas as transições são possíveis e depois vamos retirando as setas que correspondem às transições proibidas. Tendo os pares proibidos, basta então retirar as setas correspondentes às proibições. Aqui, como já vimos, temos os quadrados vazios 33, 43, 23, 32, 42 e 22; por isso, as transições proibidas são3 → 3,

4 → 3, 2 → 3, 3 → 2, 4 → 2 e 2 → 2. Retirando estas setas, obtemos o grafo de transição apresentado no canto superior esquerdo da imagem.

(42)

24 FCUP

Fig. 3.6. Representação de grafos de transição de IFS (lado esquerdo) com os correspondentes fractais (lado direito).

Um vértice do grafo de transição é chamado de rome se houver setas para esse vértice de cada vértice, incluindo ele próprio.

Então, temos que o vértice 1 e 4 do grafo de transição do canto superior esquerdo da figura 3.6 são romes.

Para que um fractal produzido por um IFS com memória também possa ser produzido por um IFS sem memória (vistos anteriormente) o grafo de transição tem de possuir umas certas condições. As condições de redução de memória são então as seguintes:

1. O grafo deve ter pelo menos uma rome.

2. Para cada vértice não-rome, existe um caminho no grafo de transição de alguma rome para essa não-rome.

A primeira condição garante que pelo menos uma parte da forma contenha uma cópia escalo-nada de toda a forma; a segunda condição mostra que cada parte da forma é uma cópia em escala de uma dessas cópias escalonadas da forma inteira.

Para evitar possíveis problemas envolvendo praticidade, impomos uma condição adicional. 3. Não há nenhuma loop a passar apenas por vértices não-rome.

(43)

Se as condições 1, 2 e 3 forem satisfeitas, o fractal pode ser gerado por um IFS sem memória e com um conjunto finito de transformações.

Voltando ao exemplo, vemos que o grafo do canto esquerdo superior da figura 3.6 satisfaz as três condições.

Para a primeira condição já vimos que o grafo tem duas romes por isso esta é satisfeita. Para a segunda condição, vamos analisar os vértices não-rome (2 e 3). Temos o caminho1 → 2

e1 → 3; e sabemos que 1 é uma rome, por isso a condição é satisfeita.

Para a terceira condição basta ver que não existe nenhuma loop que passe unicamente por vértices não-rome. O que se observa na figura nitidamente, até porque nem há nenhum caminho entre os vértices não-rome (2 e 3).

Como as três condições são satisfeitas, este IFS de pares proibidos pode ser gerado por um IFS sem memória.

Observando o fractal vemos que este é constituído por cópias de diferentes escalas dele próprio. Temos duas cópias de escala 1/2no canto inferior esquerdo e no canto superior direito; e duas cópias do fractal de escala1/4nos quadrados com a nomenclatura 12 e 13. Ver figura 3.7.

Fig. 3.7. Subdivisão do fractal representado no canto superior direito da figura 3.6

Depois de observarmos esta imagem é muito mais fácil construir a tabela 3.1 do IFS sem me-mória. Onde:

• rindica a escala da imagem na direção horizontal. Ou seja, multiplicar as coordenadas dex

de cada ponto porr. Sendo que ornegativo reflete a forma em relação ao eixoy.

• sdenota o redimensionamento da imagem na direção vertical. Ou seja, multiplicar as coorde-nadas dey de cada ponto pors. Sendo que osnegativo reflete a forma em relação ao eixo

x.

• θrepresenta a rotação das linhas horizontais em torno da origem, com os ângulos positivos a indicar rotações no sentido anti-horário.

• φcorresponde à rotação de linhas verticais. (Na maioria dos casos que vão ser analisados aquiθ = φ, assim a imagem gira em torno da origem sem qualquer tipo de distorção.)

• edenota o movimento/translação na direção horizontal. Ou seja, adicionamoseà coordenada

(44)

26 FCUP

• f representa o movimento/translação na direção vertical. Ou seja, adicionamosf à coorde-nadayde cada ponto.

Tabela 3.1: Código IFS sem memória para o fractal representado no canto superior direito da figura 3.6

r

θ

φ

s

e

f

1/2

0

0 1/2

0

0 1/2

0

0 1/2

1/2

1/4

0

0 1/4

1/2

0 1/4

0

0 1/4

0 1/2

Para relacionar esta tabela IFS às divisões feitas ao fractal na figura 3.7, observe, por exemplo, que o quadrado pequeno com bordas azuis localizado no canto superior esquerdo (quarta linha da tabela IFS) ocupa o endereço 13 e, portanto, é dado pela composição Ψ3 ◦ Ψ1. Assim, podemos

calcular os parâmetros de transformação algebricamente.

Ψ3(Ψ1(x, y)) = Ψ3(x/2, y/2) = (x/4, y/4 + 1/2) (3.5)

Agora vamos analisar o fractal apresentado no canto inferior direito da figura 3.6.

Temos que os quadrados vazios são o 41, 32, 23 e 14. Daqui concluímos que as transições proibidas vão ser 4 → 1, 3 → 2, 2 → 3 e 1 → 4. Por isso já conseguimos construir o grafo de transição presente no canto inferior esquerdo da figura 3.6. Analisando este grafo vemos que não existe nenhuma rome, pois nenhum dos vértices tem setas a apontar para ele de todos os vértices, incluindo ele próprio. Assim, com a primeira condição quebrada, este fractal não pode ser construído por um IFS sem memória.

Observando o fractal representado no canto superior direito da figura 3.8 conseguimos identifi-car várias cópias do fractal de escala cada vez mais pequena (temos duas cópias de escala1/2na parte de baixo do fractal; e, à medida que vamos subindo, continuamos a ter sempre duas cópias do fractal mas de escala cada vez menor, 1/4, depois 1/8e por aí em diante). O que à partida significa que este fractal pode ser desenhado com um IFS sem memória.

Ao contrário do que acontecia no primeiro fractal da figura 3.6, este não parece ser resolvido facilmente sem memória. Pois temos cópias cada vez menores do fractal, infinitamente.

Vamos analisar o grafo de transição. Temos que os vértices 1 e 2 são romes, pois temos setas de todos os vértices, incluindo eles próprios, a apontar para eles. O que deixa os vértices 3 e 4 como não romes.

Neste grafo, ao contrário do que acontecia no grafo de transição do fractal representado na parte superior da figura 3.6, identificamos uma loop, 4 → 4, que dá origem a caminhos arbitrariamente longos através dos vértices não-romes 3 e 4. Por exemplo,

(45)

Fig. 3.8. Representação de grafos de transição de IFS (lado esquerdo) com os correspondentes fractais (lado direito)

Cada um destes é uma cópia pequena do fractal, que requer a sua própria regra numa constru-ção do fractal sem memória. Esta loop (4 → 4) por vértices não-rome cria uma cascata infinita de cópias mais pequenas. O que significa que o IFS correspondente teria que ter infinitamente muitas regras. O que não é útil.

Para o grafo no canto inferior esquerdo da figura 3.8 vemos que 2 e 3 são romes, e que as loops em 1, em 4 e entre 1 e 4 nos dão caminhos arbitrariamente longos entre não-romes. O mesmo problema acontecia no exemplo anterior (topo da figura 3.8). E vimos que produzir um IFS sem memória levava a uma coleção infinita de transformações. Mas neste caso ainda é pior.

A parte do atrator do IFS nos quadrados 1 e 4 do fractal é uma única linha reta, de modo algum esta linha é uma cópia ou cópias de toda a forma do fractal, não importa quão reduzida. O problema aqui é que nem o subquadrado 2 nem o 3 se alimentam do 1 e do 4. No grafo de transição, as únicas setas com sentido para 1 e 4 são de 1 e 4. Isto gera a linha entre os cantos 1 e 4, e nada mais. Evitar este problema é o motivo da condição 2.

É claro que podemos construir o IFS com combinações proibidas mais longas, por exemplo, triplas proibidas que não precisam conter pares proibidos.

No capítulo seguinte vamos usar uma variação do IFS para procurar padrões em sequências de dados. Estas investigações do IFS com memória vão-nos informar em relação às nossas tentativas

(46)

28 FCUP

de descobrir quanto do passado precisamos saber para fazer previsões, talvez apenas probabilísti-cas, sobre o futuro. (12) (17)

(47)

(48)

Capítulo 4

IFS guiados e análise de dados

4.1 IFS guiados

Se o algoritmo IFS aleatório for implementado com as transformações selecionadas por alguma sequência específica de valores, chamamos a este algoritmo IFS guiado. A CGR de uma sequência de ADN é um IFS guiado.

Mais uma vez vamos considerar as regras do IFS do quadrado.

Ψi(x, y) = (x/2, y/2) + (ei, fi) (4.1)

com as translações

(ei, fi) = (0, 0), (1/2, 0), (0, 1/2)e(1/2, 1/2)parai = 1, 2, 3, 4.

Onde todos os gráficos IFS guiados começam com(1/2, 1/2), o ponto no centro do quadrado. As regras IFS quadradasΨ1,Ψ2,Ψ3 eΨ4 podem ser expressas como se se estivessem a mover

para metade do caminho dos cantos 1, 2, 3 e 4, ou seja, para os pontos (0, 0), (1, 0), (0, 1) e (1, 1). As probabilidades afetam a dispersão dos dados nas representações de IFS. Se cada transfor-mação tiver a mesma probabilidade vamos obter uma dispersão bastante uniforme dos pontos, mas se alterarmos os valores das probabilidades vamos obter um resultado muito diferente. Sendopi a

probabilidade da transformaçãoΨi, comi ∈ 1, 2, 3, 4, vamos atribuir, por exemplo,p1 = p4 = 0.4,

p2 = p3 = 0.1 para um fractal ep1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1 para outro. Os fractais

obtidos estão representados na figura 4.1.

A partir destas probabilidades podemos fazer previsões sobre o padrão no IFS. Por exemplo, no fractal do lado esquerdo da figura 4.1, a concentração densa de pontos entre os cantos 1 e 4 em forma de linha diagonal, a imagem desta linha diagonal nos quadrados 2 e 3 e a escassez de pontos entre os cantos 2 e 3 em forma de linha diagonal. E, no fractal do lado direito, a concentração de pontos no canto 1 e a escassez deles no canto 4. Vemos também que a concentração de pontos é maior em todos os subquadrados do fractal na parte 1 dos mesmos.

Vamos ver um exemplo de um IFS guiado por uma sequência da enzima amilase com uma sequência com 3957 nucleótidos e tentar arranjar maneiras de o recriar.

Os padrões mais notáveis neste IFS guiado, apresentado na figura 4.2, são a diagonal que une o canto 2 ao canto 3 e a escassez de pontos no quadrado 14. Tal como todos os quadrados que

(49)

Fig. 4.1. IFS com as regras do quadrado com probabilidades: no lado esquerdo: p1 = p4 = 0.4,

p2= p3= 0.1; no lado direito:p1 = 0.4, p2= 0.3, p3 = 0.2, p4 = 0.1

Fig. 4.2. Primeiro: IFS guiado pela sequência de ADN da amilase. Segundo: Substituto do IFS guiado por um IFS com memória, onde temos o par 14 proibido. Terceiro: Substituto do IFS guiado por um IFS com memória, onde temos o par 14 proibido e comp1 ≈ 0.149,p2 ≈ 0.330,p3 ≈ 0.351

ep4 ≈ 0.170

contenham a sequência 14 estão praticamente vazios. Os de comprimento 3 (141, 142, 143 e 144) ainda conseguimos identificar bem na imagem que estão praticamente vazios, os de comprimento maior já se torna mais complicado de observar mas sabemos que isto acontece pelo que foi visto no capítulo 3.

Para recriarmos, o mais parecido possível, este IFS guiado vamos então proibir a composição

Ψ4 ◦ Ψ1. O resultado é mostrado na segunda imagem da figura 4.2. No entanto, ainda falta a

diagonal 2-3. Como vimos em cima, alterar as probabilidades das transformações pode criar este tipo de padrão que queremos produzir (ver lado esquerdo da figura 4.1).

A segunda imagem foi construída com aproximadamente o mesmo número de pontos em cada um dos quatro quadrados que são representados por endereços de comprimento 1. Vamos então

(50)

32 FCUP

ajustar as probabilidades das transformações para representar com mais precisão a distribuição real de bases na sequência da amilase.

Contando o número de bases diferentes na sequência de ADN, vamos ter de ter589pontos no quadrado 1,1305no quadrado 2,1389no quadrado 3 e674no quadrado 4. Ou seja, sabendo que esta sequência tem 3957 nucleótidos, vamos ter as probabilidadesp1 = 589/3957 ≈ 0.149, p2 =

1305/3957 ≈ 0.330, p3= 1389/3957 ≈ 0.351ep4= 674/3957 ≈ 0.170.

Juntando estas probabilidades ajustadas com a proibição da composiçãoΨ4◦Ψ1temos o fractal

representado na terceira imagem da figura 4.2. Aqui já observamos uma diagonal 2-3 bastante semelhante à do IFS guiado pela sequência da amilase.

4.2 IFS guiado por uma série temporal

Para mostrar a aplicabilidade mais ampla deste método, vamos agora ver como criar um IFS guiado por uma série temporal. Uma série temporal é uma sequência de medições ordenadas no tempo. Suponhamos, por exemplo, que temos uma sequência sucessiva de gerações de uma população de uma determinada espécie num ambiente com recursos limitados. Em vez de regis-trarmos o número real de elementos dessa espécie em cada geração, dizemos quex1, x2, ..., xn

são frações de cada geração da capacidade de carga, a população máxima suportada pelo meio ambiente.

Queremos transformar isto numa sequência de instruções de 1s, 2s, 3s e 4s para guiar o IFS. Para isso, vamos agrupar os dados, isto é, vamos dividir a série temporal em quatro partes de me-didas. A estas divisões vamos chamar caixas. Como fazemos a divisão das medidas vai depender de quais caraterísticas dos dados queremos enfatizar.

As divisões mais comummente utilizadas são criar caixas com o mesmo tamanho, com o mesmo peso e centradas na mediana.

Vamos começar por analisar a divisão dos dados por caixas com o mesmo tamanho. Para isso, tomamos o alcanceR = max{x1} − min{x1}da série total e dividimos em quatro intervalos com

o mesmo comprimento. Isto é, temos as caixas:

B4 = [min{x1} + 3R/4, max{x1}]

B3 = [min{x1} + R/2, min{x1} + 3R/4]

B2 = [min{x1} + R/4, min{x1} + R/2]

B4 = [min{x1}, min{x1} + R/4]

(4.2)

Vamos aplicar isto numa série temporal com10000pontos de um modelo que prevê gerações de uma população de insetos, que está representada na figura 4.3. Aqui vemos já a série dividida em 4 caixas de igual comprimento, cuja separação das caixas é representada pelas linhas horizontais. Para passarmos esta representação para a representação usual do IFS, para o caso de 4 trans-formações (visto anteriormente), consideramos que, quando um ponto dos dados da série tem-poral está dentro da caixa Bi, no IFS guiado aplicamos a transformação Ψi, não esquecer que

(51)

Fig. 4.3. Exemplo de uma série temporal com10000pontos de um modelo que prevê gerações de uma população de insetos, já com a divisão feita em caixas com o mesmo tamanho

Aplicando este método temos que o IFS guiado, correspondente à série temporal vista na figura 4.3, é o representado na figura 4.4.

Fig. 4.4. IFS guiado pela série temporal da figura 4.3

Cada quadrado vazio na representação do IFS corresponde a uma combinação de transforma-ções proibidas.

Se formos identificar os quadrados vazios cujo endereço tem comprimento 2, vemos que estes são: 21, 22, 31, 32, 23, 14, 33 e 44. Se agora formos ver os quadrados vazios com endereços de comprimento 3, reparamos que estes são: 211, 311, 212, 312, 141, 441, 142, 442, 213, 313, 224, 324, 143, 443, 234 e 334.

Vemos que todas as sequências de comprimento 3 vazias contêm uma sequência de compri-mento 2 vazia. De facto, cada quadrado vazio neste IFS é o resultado de algum par proibido.

Vamos agora dividir os dados em intervalos de igual peso. Aqui os limites são colocados de forma a que cada caixa contenha aproximadamente o mesmo número de pontos.

Na figura 4.5 vemos a mesma série temporal representada na figura 4.3 mas desta vez dividida em caixas com o mesmo peso.

Vamos querer comparar as representações do IFS guiado para as diferentes divisões da série temporal. Na figura 4.6 vemos do lado esquerdo o IFS guiado pela série temporal dividida em caixas de tamanho igual (já representado anteriormente na figura 4.4) e do lado direito vemos o IFS guiado pela série temporal dividida em caixas de peso igual.

Comparando os dois fractais, observamos que o da direita é mais simétrico (em relação aos quadrantes do quadrado unitário) do que o da esquerda. O que faz sentido, considerando que este

(52)

34 FCUP

Fig. 4.5. Mesma série temporal representada na figura 4.3 mas com a divisão feita em caixas com o mesmo peso

Fig. 4.6. Lado esquerdo: IFS guiado para a série temporal dividida em caixas de tamanho igual representada na figura 4.3. Lado direito: IFS guiado para a série temporal dividida em caixas de peso igual representada na figura 4.5

IFS foi guiado por uma série temporal dividida em caixas com peso igual, ou seja, com mais ou menos o mesmo número de pontos.

Analisando visualmente a densidade de pontos numa certa região, podemos estimar a probabi-lidade de os pontos estarem localizados na combinação de caixas correspondentes a um determi-nado endereço. A partir daqui podemos estimar probabilidades de certos comportamentos de um sistema.

Já vimos a divisão dos dados de uma série temporal por caixas de tamanho igual e de peso igual. Agora vamos ver divisão de caixas centradas na mediana. Ou seja, o limite entre as caixas

B2 eB3 é a mediana da série temporal. É usada a mediana em vez da média porque a presença

de valores extremos pode ter um efeito maior sobre a média do que sobre a mediana.

Na figura 4.7 vemos a representação de uma série temporal com quatro divisões por caixas diferentes. A do canto superior esquerdo dividida em caixas de tamanho igual, a do canto superior direito em caixas de peso igual, a do canto inferior esquerdo centrada na mediana onde os outros dois limites do intervalo são 10% do intervalo dos valores acima e abaixo da mediana e no canto inferior direito centrada na mediana onde os outros dois limites do intervalo são 5% acima e abaixo da mediana.

Os correspondentes IFS’s estão representados na figura 4.8. Sendo a primeira imagem corres-pondente à série temporal dividida em caixas de tamanho igual, a segunda em caixas de peso igual, a terceira centrada na mediana onde os outros dois limites são 10% acima e abaixo da mesma e a

(53)

Fig. 4.7. Série temporal de um batimento cardíaco dividida em caixas de tamanho igual (canto superior esquerdo), peso igual (canto superior direito) e centradas na mediana (parte inferior da figura)

quarta imagem centrada na mediana onde os outros dois limites são 5% acima e abaixo da medi-ana.

Fig. 4.8. IFS’s guiados pelas diferentes divisões em caixas da série temporal representada na figura 4.7

A forma Z no sentido reverso que conseguimos visualizar nos IFS guiados pela séria temporal representada na figura 4.7 é usualmente encontrado em dados experimentais. (12) Este Z reverso ("backward Z") representa a constante movimentação de pontos dos dados entre caixas adjacentes. Este atrator é mais visível na segunda e terceira imagem, o que nos leva a concluir que as divisões em caixas da série temporal respetivas a estes IFS guiados estão com um número de pontos mais ou menos igual em cada caixa.

No primeiro IFS guiado da figura 4.8 vemos que os pontos estão todos concentrados no seg-mento de reta que une o canto 1 ao 2, o que nos leva a pensar que, na série temporal, a maioria dos pontos encontram-se nas caixasB1eB2. O que sabemos que é verdade pela figura 4.7. Para esta

série temporal, a divisão por caixas de tamanho igual não é muito útil. Como a maioria dos pontos representados no IFS guiado estão todos concentrados no segmento de reta 1-2, não conseguimos identificar muitos mais detalhes que podem estar presentes na sequência.

Temos também alguns pontos na diagonal 2-3, que nos diz que uma longa sequência de pontos calham na caixaB2eB3. Para além disto não podemos dizer muito mais sobre este IFS guiado, já