• Nenhum resultado encontrado

6.5 An´alise por regi˜oes genˆomicas: resultados preliminares

6.5.1 An´alise comparativa pr´evia: Homo sapiens

A partir destas an´alises a primeira informac¸˜ao importante que estes resultados nos mostram est´a associado ao perfil de ocorrˆencia da frequˆencia relativa dos SNPs em relac¸˜ao `a energia e `a flexibilidade que s˜ao diferentes entre as regi˜oes codificantes e n˜ao codifican- tes de prote´ınas.

Os resultados da frequˆencia relativa das transic¸˜oes em func¸˜ao de∆G que ocorrem nas regi˜oes codificantes de prote´ınas possuem perfis similares independente do tipo de mutac¸˜ao ocorrida (sinˆonima ou n˜ao sinˆonima), veja figuras 49a e 53a. ´E poss´ıvel observar a existˆencia de seis pontos de frequˆencia relativa mais elevada, por´em os trˆes picos mais proeminentes concentram-se nas faixas de∆G pr´oximos de −0.9, 0.9 e 1.8 kcal/mol. Os mismatchesassociados a estes valores de energia livre s˜ao G:T flanqueado pelos pares de bases G:C e A:C e A:C flanqueado pelos pares de bases G:C e A:T.

Estes resultados mostram que a maioria dos erros de pareamentos encontram-se entre as bases G e C no genoma e que apesar de conferirem uma maior estabilidade entre suas ligac¸˜oes potencializam a ocorrˆencia destes mismatches. Por outro lado ´e poss´ıvel observar que a frequˆencia relativa dos SNPs diminui progressivamente entre os trˆes picos destacados, indicando que os s´ıtios das regi˜oes codificantes compostos por G e C podem favorecer os erros de incorporac¸˜ao de bases em microrregi˜oes mais est´aveis da mol´ecula.

observamos que os dois picos de mais elevada frequˆencia com valores de∆G pr´oximos de −0.9, 0.9 kcal/mol s˜ao comuns para as duas regi˜oes com excec¸˜ao da microrregi˜ao com valor de∆G pr´oximo de 1.6 kcal/mol que representa uma variac¸˜ao na frequˆencia da regi˜ao intronica. Vale a pena ressaltar que o perfil mostrado no gr´afico 51 ´e muito se- melhante `a distribuic¸˜ao dos SNPs visto no gr´afico do cromossomo 1 do genoma humano (figura 27, p´agina 47). 0 1 2 3 SNP ratio 0 1 2 3 SNP ratio a) -3 -2 -1 0 1 2 3

Mismatch free energy ∆G (kcal/mol)

0 1 2 SNP ratio b) human chall-cds-syn Figura 49

Distribuic¸˜ao relativa de SNPs em func¸˜ao de ∆G oriundos de substituic¸˜oes sinˆonimas na regi˜ao

codificante do genoma de H. sapiens. Parte

a) refere-se `as transic¸˜oes e b) `as transvers˜oes. 0 1 2 3 SNP ratio 0 1 2 3 SNP ratio a) 0.5 1 1.5 2 2.5 3

Mismatch flexibility k (eV nm-2)

0 1 2 3 SNP ratio b) 0.5 1 1.5 2 2.5 3

Mismatch flexibility k (eV nm-2)

0 1 2 3 SNP ratio human chall-cds-syn Figura 50

Distribuic¸˜ao relativa de SNPs em func¸˜ao de keq oriundos de substituic¸˜oes sinˆonimas nas regi˜oes codificantes do genoma de H. sapiens. Parte a) refere-se `as transic¸˜oes e b) `as transvers˜oes.

As transvers˜oes em func¸˜ao de∆G possuem um comportamento pr´oprio com relac¸˜ao ao tipo de mutac¸˜ao como mostram os gr´aficos 49b e 53b. Observa-se que nas trans- vers˜oes que originam as substituic¸˜oes sinˆonimas mantˆem-se em m´edia 10% maior que o organismo padr˜ao at´e a microrregi˜ao onde os valores de ∆G tornam-se positivos. No momento em que a energia livre torna-se positiva ´e poss´ıvel verificar que a frequˆencia relativa das transvers˜oes tende a reduzir principalmente na microrregi˜ao em que o valor de energia livre ´e aproximadamente2.4 kcal/mol.

´

E importante ressaltar que ao longo das microrregi˜oes em que∆G varia de −2.4 `a 1.8 a flutuac¸˜ao entre as frequˆencias ´e pequena sugerindo que n˜ao h´a um favorecimento em es- pecial das mutac¸˜oes sinˆonimas neste genoma. Por outro lado, podemos notar uma queda abrupta na frequˆencia relativa das mutac¸˜oes ocorrendo no s´ıtio que possui a energia livre em torno de2.4 kcal/mol. Este resultado mostra que para as mutac¸˜oes sinˆonimas existem tamb´em mismatches que ocorrem raramente (< 1%) como ´e o caso do erro de pareamento C:C flanqueado pelos pares de bases A:T. Com relac¸˜ao aos resultados das transvers˜oes que

originam mutac¸˜oes n˜ao sinˆonimas, v´arios pontos entre a frequˆencia relativa elevada s˜ao comuns aos resultados observados nas transvers˜oes que originam mutac¸˜oes sinˆonimas, veja figuras 49b e 53b. Por´em, chamamos a atenc¸˜ao para a mesma faixa de energia li- vre (2.4 kcal/mol) em que a frequˆencia relativa do mismatch C:C flanqueado pelos pares de bases A:T ´e aproximadamente10% menos frequente que o padr˜ao. Com relac¸˜ao `as mutac¸˜oes n˜ao sinˆonimas ´e poss´ıvel notar que este mismatch ´e abundante e apresenta- se 60% mais frequente que no organismo padr˜ao e 2.5 vezes mais frequentes do que observado no gr´afico que representa as transvers˜oes que originam mutac¸˜oes sinˆonimas. Com relac¸˜ao `a frequˆencia relativa das transvers˜oes associadas aos intronsmostradas no gr´afico 51b, encontramos tamb´em resultados semelhantes aos encontrados no cromos- somo 1 desta mesma esp´ecie (figura 27 e 47).

0 1 2 SNP ratio 0 1 2 SNP ratio a) -3 -2 -1 0 1 2 3

Mismatch free energy ∆G (kcal/mol)

0 1 2 SNP ratio b) human ch1-intron Figura 51

Distribuic¸˜ao relativa de SNPs em func¸˜ao de ∆G oriundos de substituic¸˜oes n˜ao codificantes do

genoma de H. sapiens. Parte a) refere-se `as

transic¸˜oes e b) `as transvers˜oes.

0 1 2 SNP ratio 0 1 2 SNP ratio a) 0.5 1 1.5 2 2.5 3

Mismatch flexibility k (eV nm-2)

0 0.5 1 1.5 2 SNP ratio b) 0.5 1 1.5 2 2.5 3

Mismatch flexibility k (eV nm-2)

0 0.5 1 1.5 2 SNP ratio human ch1-intron Figura 52

Distribuic¸˜ao relativa de SNPs em func¸˜ao de keq oriundos de substituic¸˜oes nas regi˜oes n˜ao codifi- cantes do genoma de H. sapiens. Parte a) refere- se `as transic¸˜oes e b) `as transvers˜oes.

Com relac¸˜ao aos resultados observados da frequˆencia relativa das transic¸˜oes em fun- c¸˜ao da flexibilidade, os SNPs oriundos das substituic¸˜oes sinˆonimas e n˜ao sinˆonimas, gr´aficos 50a e 54a comportam-se tamb´em de forma semelhante. ´E poss´ıvel observar a existˆencia de quatro picos nestes gr´aficos com frequˆencia relativa mais elevada. Por´em os picos mais proeminentes possuem valores de keq igual a 1.5, 1.8 e 2.6 eV · nm−2 e

est˜ao associados aos mismatches G:T e seus pares de bases adjacentes G:C, C:A flanque- ados pelos pares de bases A:T e G:C e novamente o mismatch G:T, por´em flanqueado pelos pares de bases A:T e G:C respectivamente. Al´em de mais frequente (2.5 vezes mais frequentes que o padr˜ao) o mismatch G:T e seus pares de bases adjacentes G:C coinci-

dem com as faixas de valores de pareamentos canˆonicos. Por outro lado estes resultados tamb´em nos mostram que as microrregi˜oes mais r´ıgidas favorecem as mutac¸˜oes sinˆonimas e n˜ao sinˆonimas oriundas das transic¸˜oes. A respeito dos resultados da frequˆencia relativa dos SNPs nas regi˜oes intronicas do DNA, podemos observar atrav´es gr´afico 52 que esta distribuic¸˜ao ´e muito similar aos resultados referentes ao cromossomo 1 (figura 27) deste mesmo organismo, veja as discuss˜oes na sec¸˜ao 6.4.1, p´agina 47.

Com relac¸˜ao aos resultados apresentados no gr´afico 50b, podemos observar que as mutac¸˜oes sinˆonimas originadas a partir de uma transvers˜ao possuem trˆes pontos cujas frequˆencias relativas s˜ao elevadas. O primeiro ponto e de maior proeminˆencia ´e referente a microrregi˜ao mais flex´ıvel (keq ≈ 0.5 eV · nm−2) associada ao mismatch G:A e suas

bases vizinhas G:C. O segundo ponto cuja frequˆencia relativa ´e aproximadamente 50% maior que o organismo padr˜ao, ´e um ponto de frequˆencia elevada comum entre todos os organismos discutidos na sec¸˜ao6.4, que incia na p´agina 47.

O outro ponto em evidencia coincide na microrregi˜ao com valores dekeqpr´oximo de

2.2 eV · nm−2que ´e um ponto em comum observado tamb´em nos resultados dos organis-

mos G. gallus, A. mellifera e S. pyogenes (figuras 37, 41 e 47 respectivamente). Existem dois mismatches associados `a este s´ıtio de maior rigidez: os erros de pareamentos T:T e G:G ambos entre os seus pares de bases adjacentes G:C.

0 1 2 SNP ratio 0 1 2 SNP ratio a) -3 -2 -1 0 1 2 3

Mismatch free energy ∆G (kcal/mol)

0 1 2 SNP ratio b) human chall-cds-nosyn Figura 53

Distribuic¸˜ao relativa de SNPs em func¸˜ao de ∆G oriundos de substituic¸˜oes n˜ao sinˆonimas nas regi˜oes codificantes do genoma de H. sapiens. Parte a) refere-se `as transic¸˜oes e b) `as trans- vers˜oes. 0 1 2 SNP ratio 0 1 2 SNP ratio a) 0.5 1 1.5 2 2.5 3

Mismatch flexibility k (eV nm-2)

0 0.5 1 1.5 2 SNP ratio b) 0.5 1 1.5 2 2.5 3

Mismatch flexibility k (eV nm-2)

0 0.5 1 1.5 2 SNP ratio human chall-cds-nosyn Figura 54

Distribuic¸˜ao relativa de SNPs em func¸˜ao de

keqoriundos de substituic¸˜oes n˜ao sinˆonimas nas

regi˜oes codificantes do genoma de H. sapiens. Parte a) refere-se `as transic¸˜oes e b) `as trans- vers˜oes.

As mutac¸˜oes n˜ao sinˆonimas tamb´em originadas pelas de transvers˜oes possuem um perfil particular muito diferente do resultado observado para as mutac¸˜oes sinˆonimas. O gr´afico 54b representa a frequˆencia relativa das mutac¸˜oes n˜ao sinˆonimas originadas das transvers˜oes em func¸˜ao da flexibilidade. Este resultado mostra que essas mutac¸˜oes tem um perfil diferente ao perfil observado das mutac¸˜oes sinˆonimas (figura 50b) mas se as- semelha com o perfil da frequˆencia relativa dos SNPs encontrados nas regi˜oes intronicas (figura 52b) e tamb´em no cromossomo 1 (figura 48b, p´agina 65) deste organismo.

7

Conclus ˜ao

Nesta sec¸˜ao, tecemos as nossas conclus˜oes `a partir dos resultados mostrados e discu- tidos na sec¸˜ao 6. As nossas an´alises relacionam a influˆencia da flexibilidade e da energia livre na distribuic¸˜ao de polimorfismos (SNPs) em nove genomas.

Verificamos que a frequˆencia das substituic¸˜oes, tanto para transic¸˜oes como para trans- vers˜oes, s˜ao dependentes da composic¸˜ao das bases vizinhas em acordo com o que j´a foi descrito na literatura (26, 41–43). Os nossos resultados indicam que a ocorrˆencia dos po- limorfismos nos diversos genomas ´e influenciada pela energia livre e pela flexibilidade da microrregi˜ao do DNA em que ele ocorre. Portanto, existe uma raz˜ao f´ısica para a predominˆancia de certas bases vizinhas sobre outras na frequˆencia de SNPs.

Na comparac¸˜ao entre os cromossomos de cada esp´ecie notamos uma grande uniformi- dade nos resultados. Ou seja, n˜ao h´a diferenc¸as importantes na frequˆencia de SNPs entre os cromossomos de uma mesma esp´ecie com a excec¸˜ao das transic¸˜oes do cromossomo sexual de Bos taurus.

A an´alise comparativa entre os 9 genomas analisados mostrou que o conte´udo G+C do genoma influencia a frequˆencia dos SNPs tanto em relac¸˜ao `a energia livre quanto em relac¸˜ao `a flexibilidade. Em particular, o conte´udo G+C privilegia o aumento da frequˆencia de polimorfismos em microrregi˜oes do DNA que s˜ao pouco est´aveis e pouco flex´ıveis. No entanto, o conte´udo G+C n˜ao ´e suficiente para explicar todas as diferenc¸as entre os diversos genomas. Quais s˜ao os fatores que poderiam levar a uma diferenc¸a na ocorrˆencia de SNPs, por exemplo quando analisados em func¸˜ao de flexibilidade? Uma possibilidade envolve as prote´ınas respons´aveis pelo mecanismo de reparo que s˜ao diferentes entre os organismos, possivelmente com eficiˆencias de reparo diferentes (56). Estas prote´ınas usam a flexibilidade do DNA na regi˜ao do mismatch para identificar seus alvos. Nossos resultados indicam uma dependˆencia importante da ocorrˆencia de SNPs com flexibilidade, em especial encontramos frequentemente que regi˜oes mais r´ıgidas promovem uma maior ocorrˆencia de SNPs em v´arios dos organismos estudados. Embora isto seja indicador da importˆancia da flexibilidade, nossos resultados ainda n˜ao s˜ao conclusivos se existe ou n˜ao uma relac¸˜ao com o mecanismo de reparo.

Claramente, para responder `a estas perguntas de maneira mais definitiva, precisamos detalhar mais a nossa an´alise, principalmente distinguindo entre regi˜oes diferentes dos genomas. Aqui, o nosso grande limitador foi a falta de algumas informac¸˜oes referentes aos genomas analisados n˜ao disponibilizadas no dbSNP (release 132), como por exem-

plo a disponibilidade das sequˆencias de SNPs separadas por regi˜oes codificantes e n˜ao codificantes e pelo tipo de mutac¸˜ao (sinˆonima, conservativa e n˜ao sinˆonima) que s´o esta- vam dispon´ıveis para o genoma humano. Os resultados para este genoma mostram que as mutac¸˜oes oriundas das transic¸˜oes encontradas nas regi˜oes codificantes em func¸˜ao da energia livre e das flexibilidades se distribuem de forma semelhante com relac¸˜ao ao tipo de mutac¸˜ao (sinˆonima e n˜ao sinˆonima) mas possuem um perfil muito particular quando comparadas ao cromossomo 1 e com as regi˜oes n˜ao codificantes (introns) deste mesmo organismo. Verificamos tamb´em que existem mismatches que originam mutac¸˜oes n˜ao- sinˆonimas que est˜ao favorecidas nas microrregi˜oes r´ıgidas do DNA. Em contrapartida estes mesmos mismatches originam mutac¸˜oes sinˆonimas extremamente raras na mesma microrregi˜ao do DNA.

8

Perspectivas futuras

Os resultados obtidos neste trabalho levantaram um grande n´umero de perguntas que ensejam novas e mais detalhadas an´alises. Por exemplo, temos uma clara indicac¸˜ao de que o conte´udo C+G ´e importante na distribuic¸˜ao de SNPs. Portanto um dos primeiros passos para a continuac¸˜ao deste trabalho ´e o levantamento detalhado da frequˆencia da ocorrˆencia de cada tr´ımero ou seja cada base mutada e as bases vizinhas que a flanqueiam para cada organismo e substituir o nosso modelo de organismo padr˜ao uniforme por um que reflita a composic¸˜ao de bases de cada organismo. Al´em disto, a nossa presente an´alise trata transic¸˜oes e transvers˜oes de maneira independente. Poder´ıamos portanto usar um “modelo de dois parˆametros” como o de Kimura (50) para comparar as frequˆencias entre transic¸˜oes e transvers˜oes.

Neste trabalho, a an´alise em func¸˜ao da regi˜ao genˆomica s´o foi realizada para o ge- noma humano por limitac¸˜oes do dbSNP. Nossa intenc¸˜ao ´e buscar alguma estrat´egia que nos permita separar as sequˆencias por regi˜oes codificantes, n˜ao codificantes e pelo tipo de mutac¸˜ao para os demais genomas analisados neste trabalho independente da classificac¸˜ao do dbSNP. A partir destas sequˆencias separadas um outro passo ser´a ampliar o n´umero de bases adjacentes afim de analisar o conte´udo das bases vizinhas e confirmar se o vi´es do conte´udo G+C do genoma de fato interfere na frequˆencia dos SNPs.

Uma outra limitac¸˜ao importante ´e que n´os n˜ao sabemos a origem dos SNPs presentes no dbSNP, apenas sabemos que foram incorporados ao longo da evoluc¸˜ao dos organis- mos. Seria interessante obtermos dados de SNPs que foram gerados de forma contro- lada, como por exemplo criados intencionalmente ao irradiar organismos por radiac¸˜ao ionizante. Alternativamente, poder´ıamos procurar por SNPs que ocorreram sob press˜ao seletiva controlada em laborat´orio.

A.1

Scripts utilizados neste trabalho

Documentos relacionados