• Nenhum resultado encontrado

1.2 Proposta de Pesquisa

1.2.1 Proposta de Trabalho

No presente trabalho, estamos interessados nos processos de identifica¸c˜ao, reprodu¸c˜ao e classifica¸c˜ao matem´atica de sequˆencias de DNA atrav´es dos CCEs, sendo os objetivos principais:

a) Ampliar os resultados apresentados em [20], tanto no contexto biol´ogico quanto no contexto matem´atico, para outras sequˆencias de DNA com caracter´ısticas e fun¸c˜oes biol´ogicas distintas, incluindo sequˆencias relacionadas a v´ırus e bact´erias causadoras de patologias cl´ınicas, al´em de sequˆencias de prote´ınas, gene e genoma;

2

b) Mostrar evidˆencias da existˆencia de uma estrutura matem´atica em sequˆencias de DNA que contenham informa¸c˜oes gen´etica e genˆomica, em termos das fitas simples e da dupla h´elice do DNA, respectivamente;

c) Apontar para uma nova abordagem relacionando os processos de armazenamento, or- ganiza¸c˜ao, transmiss˜ao e identifica¸c˜ao da informa¸c˜ao biol´ogica aos protocolos usados em sistemas de redes locais de computadores.

Inicialmente, buscamos sequˆencias de DNA postadas no NCBI com caracter´ısticas biol´ogi- cas distintas e com diferentes comprimentos, como mostrado na Tabela 1.1. Ao inv´es de iniciarmos a an´alise do genoma como um todo, focalizamos primeiramente em suas partes em termos da fita simples do DNA (genomas eucari´oticos e procari´oticos) e, posteriormente focalizamos em um genoma procarioto como um todo e, por ´ultimo, focalizamos na dupla h´elice do DNA.

Todavia, nos deparamos com algumas perguntas cujas respostas ser˜ao importantes na valida¸c˜ao do modelo matem´atico em quest˜ao:

1) Outras sequˆencias de DNA, como as relacionadas na (Tabela 1.1), diferentes das sequˆen- cias apresentadas em [20], poder˜ao ser reproduzidas pelos c´odigos G-linearidade (BCH sobre an´eis)?

2) Como reproduzir as sequˆencias com comprimentos diferentes de 63 nucleot´ıdeos? 3) A Tabela 1.1 ilustra sequˆencias de c´elulas eucari´oticas (viridiplantae, metazoa e fungi )

e de c´elulas procari´oticas (archea, viruses e bacteria). No contexto biol´ogico, existem diferen¸cas enormes entre essas c´elulas (ver Subse¸c˜ao 2.1.1, Cap´ıtulo 2). Os c´odigos G- linearidade tamb´em ser˜ao capazes de reproduzir sequˆencias das c´elulas procari´oticas? 4) Ser´a poss´ıvel reproduzir uma prote´ına inteira sem diferen¸ca de amino´acido?

5) Ser´a poss´ıvel reproduzir um gene e genoma inteiro?

6) As sequˆencias identificadas e reproduzidas atrav´es dos c´odigos G-linearidade (BCH sobre an´eis) tamb´em poder˜ao ser identificadas e reproduzidas atrav´es de outros c´odigos? Em caso positivo, quais?

7) E a dupla helice do DNA? Tamb´em ser´a poss´ıvel reproduzi-la? O c´odigo capaz de identificar e reproduzir a fita simples do DNA tamb´em ´e capaz de identificar e reproduzir a dupla h´elice do DNA?

Sequˆencias de DNA Organismos Esp´ecies Comprimentos em nucleot´ıdeos

SDs- Mitocondria Diversos Viridiplantae 39, 45, 51, 63, 93 e 255 nt

SDs- Cloroplasto Metazoa SDs- Ret´ıculo Fungi

V´ıruses

miRNA H.Sapiens Metazoa 21 nt

Sinais internos S.cerevisae Fungi 63 nt

Hormˆonio Pet´unia Viridiplantae 63 nt

´Introns R.norvegicus Metazoa 63 nt

E.nidulans Fungi

DNA repetitivo H.vulgare Viridiplantae 63 e 255 nt

O.sativa

Prote´ınas Diversos Archea 63, 255 e 1023 nt

Bacteria Viruses Viridiplantae Metazoa

Gene TRAV7 Homo sapiens Metazoa 511 nt

Genoma lactococcus lactis Plasmid 2047 nt

Tabela 1.1: Sequˆencias que ser˜ao analisadas no presente trabalho.

8) Existem relatos na literatura ([22] e [23]) de que quando uma sequˆencia de DNA sofre uma muta¸c˜ao em um determinado nucleot´ıdeo, por algum motivo, outro nucleot´ıdeo tamb´em ´e alterado na sequˆencia. Os c´odigos G-linearidade s˜ao capazes de gerar e reproduzir sequˆencias com essas caracter´ısticas? Em caso positivo, como?

9) Ser´a poss´ıvel reproduzir uma sequˆencia de direcionamento por um c´odigo e a prote´ına (parte madura da prote´ına3 mais a sequˆencia de direcionamento) por outro c´odigo?

Esse fato pode apresentar ind´ıcios de c´odigos concatenados nessas sequˆencias de DNA? Como?

No conjunto de sequˆencias de DNA, identificadas na Tabela 1.1, temos as sequˆencias em termos das fitas simples do DNA que contˆem informa¸c˜oes gen´eticas (genoma, gene, DNA

3

repetitivo, ´ıntron, RNA, mRNA, prote´ınas, hormˆonio, sequˆencia de direcionamento (SD) e de sinal interno (SI)) e sequˆencias que contˆem informa¸c˜oes genˆomicas (dupla h´elice do DNA). Sendo assim, propomos a caracteriza¸c˜ao de dois modelos, um no contexto de codifica¸c˜ao gen´etica (Figura 1.3) e outro no contexto de codifica¸c˜ao genˆomica (Figura 1.5).

Destinatário Decodificado Transmissor Receptor Canal discreto Transmissor Codificador Genômico Fonte Código BCH Rotulamento Código G-Linearidade nt Codificador Fonte Canal

=

nt sequência genômica

Figura 1.5: Modelo de um sistema de comunica¸c˜ao digital e o modelo de um sistema de comunica¸c˜ao de informa¸c˜ao genˆonica.

A principal diferen¸ca entre eles est´a relacionada ao codificador de canal. No contexto de codifica¸c˜ao gen´etica, o canal ´e separado em modulador, canal e demodulador. No contexto de codifica¸c˜ao genˆomica, o canal passa a ser uma ´unica entidade chamada “canal discreto podendo ter ou n˜ao mem´oria”, como mostra a Figura 1.5. O processo de codifica¸c˜ao est´a relacionado com os poss´ıveis erros que ser˜ao introduzidos pelo canal em ambos os modelos.

Para a identifica¸c˜ao, reprodu¸c˜ao e classifica¸c˜ao matem´atica das sequˆencias de DNA (em termos das fitas simples e dupla) descritas na Tabela 1.1, alguns elementos devem ser consi- derados, tais como: a estrutura alg´ebrica, o alfabeto, o rotulamento, o mapeamento, o po- linˆomio primitivo e o polinˆomio gerador, por serem fundamentais na determina¸c˜ao dos CCEs resultantes no codificador. Deste fato decorre a necessidade do desmembramento do codi- ficador gen´etico/genˆomico e sua caracteriza¸c˜ao matem´atica. Portanto, propomos que essas sequˆencias de DNA foram concebidas obedecendo uma estrutura matem´atica linear, c´ıclica (abeliana), e n˜ao geradas de maneira aleat´oria.

A caracteriza¸c˜ao matem´atica da identifica¸c˜ao, reprodu¸c˜ao e classifica¸c˜ao de sequˆencias gen´eticas e genˆomicas dever´a ampliar consideravelmente a capacidade de compreens˜ao do funcionamento dos sistemas biol´ogicos e, eventualmente, as possibilidades de sua manipula¸c˜ao serem analisadas por m´etodos quantitativos.

A associa¸c˜ao entre as teorias de informa¸c˜ao, comunica¸c˜ao e codifica¸c˜ao e a ciˆencia da vida proporciona um desenvolvimento crescente e fundamental para o melhor entendimento des- sas ideias. Como uma tendˆencia e uma nova frente de pesquisa, num futuro muito pr´oximo, tamb´em poder´a ser citado como mais um exemplo das v´arias aplica¸c˜oes em sistema de co- munica¸c˜ao, o sistema de comunica¸c˜ao biol´ogico. Tendo em vista a riqueza de propriedades e caracter´ısticas que envolvem o sistema biol´ogico com o objetivo da continuidade da vida, ser´a poss´ıvel no futuro aprender com esse sistema e, quem sabe, exemplos pr´aticos e mais eficientes possam ser tirados do mundo biol´ogico e usados no mundo das comunica¸c˜oes, e vice-versa.

No presente trabalho, ainda apontamos uma nova abordagem com rela¸c˜ao aos processos de armazenamento, organiza¸c˜ao, transmiss˜ao e identifica¸c˜ao da informa¸c˜ao biol´ogica. Basea- dos nos sistemas de comunica¸c˜ao intercelular e intracelular existentes no mundo biol´ogico, notamos que esses sistemas s˜ao altamente organizados, capazes e eficientes em armazenar e transmitir a informa¸c˜ao biol´ogica. Quando comparados com as redes locais de computa- dores, apresentam fortes evidˆencias em suas semelhan¸cas. Por exemplo - tanto no sistema biol´ogico quanto na comunica¸c˜ao em redes locais de computadores, um conjunto de regras e conven¸c˜oes no processo de armazenamento e transmiss˜ao da informa¸c˜ao s˜ao constru´ıdos de acordo com a necessidade de cada um com o objetivo de regulamentar a troca de informa¸c˜oes entre as partes, os protocolos. Nessa mesma dire¸c˜ao, o modelo de camadas, a arquitetura da rede, a distribui¸c˜ao topol´ogica das entidades envolvidas, a formata¸c˜ao do quadro de enlace, dentre outros, apresentam semelhan¸cas com o sistema biol´ogico. Com isso, o conjunto de conceitos e propriedades pr´e-estabelecidos em redes locais de computadores podem ser utili- zados no contexto biol´ogico e portanto, deve ser estudado futuramente, melhor caracterizado em ambos aspectos, tornando poss´ıvel uma modelagem matem´atica apropriada. Dessa ma- neira, propomos o Biological frame do genoma humano sugerindo que a informa¸c˜ao genˆomica pode ser armazenada e organizada de maneira an´aloga `as informa¸c˜oes que s˜ao armazenadas e organizadas em CD’s e, que o armazenamento e a transmiss˜ao da informa¸c˜ao genˆomica ocorrem de maneira inversa ao procedimento de transmiss˜ao de dados utilizado em redes de computadores. Relacionado ao genoma de um plasm´ıdeo Lactococcus lactis plasmid pcl 2.1, propomos a formata¸c˜ao da arquitetura biol´ogica, denominada Biological frame of Lactococcus

lactis plasmid pcl 2.1 Genomic.