2.6. Entropia na codificação de sequências genómicas
2.6.2. Estimadores de entropia em sequências de ADN
Se bem que os conceitos se confundem amiúde na bibliografia, existe em termos conceptuais uma diferença subtil entre o programa estimador de entropia e o compressor. É igualmente comum estimar-se a entropia baseando-se em compressores mas, como antes referido, no caso particular das sequências de ADN, alguns compressores excedem na sua representação a entropia máxima de código do ADN,
pelo que a estimação feita por esta via é falaciosa. O estimador de entropia não tem como objectivo último produzir um ficheiro compacto. Assim, pode descurar a componente de codificação dos elementos redundantes, centrando-se na descoberta desses mesmos elementos redundantes. Obviamente, em termos científicos a estimação da entropia será a fase mais importante da compressão pois providencia a “matéria- prima” necessária a jusante. Depois de completada essa fase, utilizam-se uma série de heurísticas juntamente com códigos, normalmente auto-delimitados, para recodificar a informação na forma compacta. Neste trabalho, a maior ênfase é colocada na estimação da entropia, no Capítulo 5 são descritas as metodologias desenvolvidas quer para a estimação e avaliação da entropia quer para a (re)codificação de sequências genómicas.
Apresentam-se a seguir menções a alguns dos estudos mais representativos que foram conduzidos para avaliar e estimar a entropia das sequências de ADN:
• Em 1995, Farach, M. et al. [46] propuseram um novo método para estimar a entropia do ADN chamado de match length entropy estimator. Este método foi usado para comparar as diferenças entre exons e introns e, ao contrário do esperado, depararam-se com o factos de que a entropia dos exons era 73% das vezes maior do que a dos introns e que a variabilidade dos introns era 80% das vezes maior do que a dos exons.
• Em 1999, Lowenstern, D. e Yianilos, P. [83] criaram o programa CDNA para estimar a entropia de uma sequência de ADN. A observação básica utilizada por eles foi a de que sequências de ADN contêm muito mais repetições aproximadas (near repeats) do que seria normalmente expectável. O CDNA utiliza dois parâmetros para capturar as repetições aproximadas: (w) o comprimento da substring e (h) a distância de Hamming [92].
• Em 2000, Lanctot, K., Li, M., e Yang, E.H. [86] baseados nas ideias de Kieffer e Yang [93, 94], publicadas pouco antes, sobre códigos baseados em gramáticas que reconhecem repetições e reversões complementares de sequências de DNA, desenvolveram um programa para estimação da entropia de sequências de DNA chamado GTAC (Grammar Transform Analysis and Compression).
Resumindo, neste capítulo fez-se um enquadramento dos objectivos deste trabalho na tipologia da informação biológica, procurando reunir os aspectos teóricos e os avanços na investigação que permitem caracterizar a natureza da informação presente nas sequências de ADN. Comprimir é antes de mais compreender, e em suma, neste capítulo pretendeu-se dar a compreender as especificidades das sequências de ADN abordando-as desde a perspectiva biológica até à perspectiva da teoria geral da informação. A ênfase foi colocada nos elementos repetitivos, que em grande maioria compõem o ADN dos eucariotas, e que são a fonte para a obtenção do sucesso na compressão, que se pretende atingir reduzindo a entropia por via da recodificação mais eficiente destas redundâncias.
Metodologias de análise e
compressão de sequências genómicas
Qualquer metodologia de compressão de informação recorre à identificação e redução de redundâncias. A primeira parte, a da identificação é tão importante como a segunda, que corresponde à codificação reduzida, mas não redutora. Neste capítulo, primeiramente, serão expostas as metodologias para análise, identificação e pesquisa sistemática de elementos redundantes, que por simplicidade serão denominados de padrões. As regiões repetitivas do ADN adquirem esse estatuto por apresentarem recorrências de padrões, exactos ou inexactos, de forma adjacente ou dispersa.
Neste capítulo figurarão igualmente, e em sucessão lógica, as metodologias de compressão mais vocacionadas para lidar com a especificidade da linguagem e do alfabeto genómico. Como se explicitou no modelo conceptual que serve de base ao trabalho desenvolvido, a metodologia de compressão adoptada é híbrida, tal escolha pretende tirar o melhor partido das regiões repetitivas e não repetitivas do ADN. Se nas primeiras se adequa melhor uma técnica baseada em dicionário, já nas segundas, um método probabilístico de predição, baseado em modelos de linguagem, pode obter melhores resultados. Sem desprimor para os demais métodos, será concedida maior ênfase às metodologias adoptadas, justificando a eleição.
3.1.
Pesquisa de padrões em sequências biológicas
A periodicidade de subsequências de nucleótidos é recorrente no ADN natural, especialmente nos seres eucariotas. As correlações variam em dimensão, desde os codões [91, 95] (3 bp) que codificam os aminoácidos das proteínas até às correlações longas [5, 96] (~106 bp) que ocorrem nas regiões não codificantes.
No domínio da biologia molecular, a comparação de sequências biológicas e a aferição de padrões recorrentes, forneceu pistas e respostas a muitas questões relacionadas, por exemplo, com a evolução e as doenças. Dum ponto de vista mais informacional, os padrões são fundamentais na inferência filogenética, na compressão da informação biológica, na segmentação das sequências ou na descoberta de motifs. As metodologias utilizadas na comparação de sequências estão orientadas, sobretudo, para duas realidades concretas. A pesquisa de padrões exactos e a pesquisa de padrões aproximados.
A pesquisa de padrões exactos [97-99], teoricamente mais simples e de menor importância relativa em bioinformática, prende-se com a identificação de segmentos de uma sequência, que se replicam com exactidão noutros locais da mesma sequência ou noutras sequências relativas a outros seres da mesma espécie ou de diferentes espécies. No âmbito da bioinformação, as repetições exactas também podem aparecer nas formas inversa ou em palindromas, no primeiro caso as bases repetem-se mas de forma simétrica, no segundo caso, além de se apresentarem na ordem inversa estão substituídas pelas bases complementares. A pesquisa de padrões exactos é parte integrante, na fase inicial, da pesquisa de seeds em algoritmos de pesquisa de similaridade e homologia como é o caso da ferramenta bioinformática BLAST [100].
A pesquisa de padrões aproximados [101-103] é crucial em bioinformática, recorrente em vários domínios de investigação desde a biomedicina à filogenia. Trata-se de identificar segmentos das sequências biológicas que apresentam réplicas aproximadas ou cópias imperfeitas ou mutadas noutras regiões do genoma ou em diferentes genomas. As repetições aproximadas incluem, igualmente, as repetições aproximadas de padrões escritos inversamente ou em palindromas. Para avaliar a similaridade entre duas strings
torna-se necessário estabelecer a definição de similaridade (estabelecer as condições a verificar) e concomitantemente descrever as medidas que quantificam as distâncias de edição que permitem igualar as strings aproximadas.