• Nenhum resultado encontrado

Ser´ a o ADN extraordinariamente sim´ etrico?

(Comunica¸c˜ao)

Vera Afreixo – Universidade de Aveiro/CIDMA [email protected]

Carlos A. C. Bastos – Universidade de Aveiro/IEETA Jo˜ao M. O. S. Rodrigues – Universidade de Aveiro/IEETA

Resumo

Este trabalho surge no ˆambito da an´alise de sequˆencias de ADN. ´E apresen- tada uma t´ecnica para an´alise do fen´omeno das simetrias em cadeias simples de ADN no genoma humano (de notar que o fen´omeno das simetrias est´a relacionado com a semelhan¸ca entre propor¸c˜oes de pares de palavras que s˜ao complemento invertido entre si).

Assumindo que os nucle´otidos se ligaram de forma aleat´oria seria de esperar que as probabilidades de ocorrˆencia dos oligonucle´otidos (tamb´em designados por palavras) s´o dependessem da probabilidade de ocorrˆencia dos nucle´oti- dos. Ser´a de esperar que alguns oligonucle´otidos tenham igual probabilidade de ocorrˆencia: aqueles com a mesma composi¸c˜ao em termos de nucle´otidos (e.g. CAA; ACA; AAC). Se adicionalmente, assumirmos como v´alida a se- gunda lei de Chargaff [1-3], que estabelece que as frequˆencias dos nucle´otidos complementares s˜ao semelhantes (%A∼ %T e %C ∼ %G), esperamos igual probabilidade de ocorrˆencia em todas as palavras que contˆem a mesma compo- si¸c˜ao dos dois tipos de nucle´otidos T1={A,T}, T2={C,G} (e.g. CAA; ACA;

AAC; GAA; AGA; AAG; CAT; ACT; ATC; CTA; TCA; TAC; GAT; AGT; ATG; GTA; TGA; TAG; CTT; TCT; TTC; GTT; TGT; TTG). A grupos de palavras com esta composi¸c˜ao chamamos grupos de composi¸c˜ao equivalente – GCE. Como facilmente se pode constatar, a semelhan¸ca entre propor¸c˜oes de pares de palavras que s˜ao complemento invertido entre si, ´e uma carater´ıstica esperada at´e em sequˆencias em que n˜ao existe estrutura de dependˆencia entre os s´ımbolos.

Quando existe semelhan¸ca entre todas as propor¸c˜oes de pares de palavras que s˜ao complemento invertido entre si, dizemos que se verifica o fen´omeno de si- metria b´asico. Quando dentro dos GCEs as palavras complementos invertidos

entre si tˆem frequˆencia semelhante, mas distinta da dos restantes elementos do GCE, dizemos que se verifica o fen´omeno de simetria n˜ao uniforme ou extraordin´aria.

Neste trabalho ser´a introduzida uma medida para avaliar/caraterizar a sime- tria extraordin´aria. A medida ´e baseada numa raz˜ao entre a soma de desvios `

a uniforme nos GCEs e a soma de desvios ao fen´omeno de simetria b´asico denotada por Rsimetria. A express˜ao 1− Rsimetria poder´a ser interpretada

como uma medida da simetria n˜ao uniforme.

A amostra em estudo ´e o genoma humano de referˆencia vers˜ao 37.1 dispon´ıvel na p´agina do National Center for Biotechnology Information (http://www. ncbi.nlm.nih.gov/).

No genoma humano para os diferentes tamanhos de palavra em estudo (k {1, 2, ..., 12}), o Rsimetria apresenta valores muito acima de 1 (valor esperado

para os casos em que existe simetria b´asica e n˜ao existe simetria n˜ao uniforme). Tamb´em se observa que as palavras de tamanho 3 em rela¸c˜ao `as palavras em estudo parecem apresentar mais simetria n˜ao uniforme.

Dado que o ADN verifica o fen´omeno da simetria, ser´a a distribui¸c˜ao nos GCEs significativamente n˜ao uniforme? No sentido de responder a esta ques- t˜ao e avaliar a significˆancia estat´ıstica do fen´omeno de interesse s˜ao explorados testes de hip´oteses. As hip´oteses s˜ao testadas via m´etodo de Monte Carlo e naturalmente s˜ao usados dados simulados sob a validade da hip´otese nula. De notar que a amostra em estudo ´e o genoma de referˆencia com aproximada- mente 3GB de tamanho e pretende-se estudar o fen´omeno da simetria n˜ao uniforme para v´arios tamanhos de oligonucle´otidos, o que requer um grande poder computacional.

Referˆencias

[1] Rudner, R., Karkas, J. D., Chargaff, E. (1964) Separation of B. subtilis DNA into complementary strands, I. biological properties., Proceedings of the National Academy of Sciences of the United States of America 60(2), 630–635. [2] Karkas, J. D., Rudner, R., Chargaff, E. (1964) Separation of B. subtilis DNA into complementary strands, II. template functions and composition as determined by transcription with RNA polymerase., Proceedings of the

National Academy of Sciences of the United States of America 60(3), 915– 920.

[3] Rudner, R., Karkas, J. D., Chargaff, E. (1964) Separation of B. subtilis DNA into complementary strands, III. direct analysis., Proceedings of the National Academy of Sciences of the United States of America 60(3), 921– 922.

Identifica¸c˜ao simultˆanea de biomarcadores em

estudos gen´eticos de associa¸c˜ao: Desafios esta-

t´ısticos e computacionais

(Comunica¸c˜ao)

Pedro Duarte Silva – Faculdade de Economia e Gest˜ao e CEGE Universidade Cat´olica Portuguesa/Porto

[email protected]

Resumo

Em estudos gen´eticos de associa¸c˜ao ´e comum pesquisar a informa¸c˜ao con- tida em grandes bases gen´eticas de dados com o objectivo de identificar um pequeno conjunto de marcadores relacionados com alguma doen¸ca ou uma caracter´ıstica gen´etica de interesse. A disponibilidade de bases de dados con- tendo dezenas ou centenas de milhar de pequenas varia¸c˜oes gen´eticas conheci- das como ”Single Nucleotide Polymorphisms”(SNPs) tem permitido encontrar algumas dezenas de SNPs associados, ou casualmente ligados, a condi¸c˜oes clinicas de risco tais como anomalias card´ıacas, diabetes, ou v´arios tipos de cancro [4].

Em termos estat´ısticos, o problema central dos estudos de associa¸c˜ao gen´etica pode ser formalizado como um problema de selec¸c˜ao de vari´aveis (SNPs) em modelos de previs˜ao para uma condi¸c˜ao clinica de interesse. Este problema tem no entanto caracter´ıstica especificas, nomeadamente devido ao elevado numero de vari´aveis potencialmente preditivas, que ´e tipicamente muito su- perior ao numero de observa¸c˜oes dispon´ıveis.

Devido `as dificuldades computacionais envolvidas, muitas das metodologias inicialmente tentadas nestes problemas recorrem a t´ecnicas univariadas, tais como o estabelecimento de rankings baseados em correla¸c˜oes marginais [2]. Essas abordagens revelam-se incapazes de identificar combina¸c˜oes de SNPs que s´o actuam quando agrupadas em conjunto, e mais recentemente v´arias t´ecnicas multivariadas (ver, por exemplo, [1][3][5][6][7]) tem vindo a ser pro- postas e aplicadas com sucesso.

Nesta comunica¸c˜ao far-se-´a uma revis˜ao de propostas recentes para o pro- blema da identifica¸c˜ao simultˆanea de biomarcadores em estudos gen´eticos de associa¸c˜ao, discutindo-se as vantagens e limita¸c˜oes das principais abordagens propostas, e identificando-se alguns dos desafios em aberto nesta ´area.

Referˆencias

[1] Ding, Y., Wilkins, D. (2006) Improving the Performance of SVM-RFE to Select Genes in Microarray Data, BMC Bioinformatics. 7.Suppl 2: S12. [2] Foulkes, A.S., (2009). Applied statistical genetics with R. New York: Springer.

[3] Guyon, I., Weston, J., Barnhill, S., Vapnick, V. (2002) Gene selection for cancer classification using support vector machines. Machine Learning. 46, 389-422.

[4] Hindorff, L., Sethupathy, P., Junkins, H.A., Ramos, E.M., Metha, J.P., Collins, F.S. Manolio, T.A. (2009) Potential etiologic and functional impli- cations of genome-wide association loci for human diseases and traits. Proc. Natl. Acad. Sci. USA.

[5] Hoggart, C.J., Whittaker, J.C., De Iorio M., Balding D.J. (2008) Analysis of all SNPs, in genome-wide and re-sequencing association studies. PLoS Genetics. 4:e1000130.

[6] Zhang, C.H. (2010) Nearly unbiased variable selection under minimax con- cave penalty, Annals of Statistics. 38, 894-942

[7] Zuber, B., Duarte Silva, A.P., Strimmer, K. (2012) A novel algorithm for simultaneous SNP selection in high-dimensional genome-wide association studies, BMC Bioinformatics. 13:284.

Dete¸c˜ao de inicia¸c˜ao intrag´enica em dados de

Documentos relacionados