Ser´ a o ADN extraordinariamente sim´ etrico?

(Comunica¸c˜ao)

Vera Afreixo – Universidade de Aveiro/CIDMA [email protected]

Carlos A. C. Bastos – Universidade de Aveiro/IEETA Jo˜ao M. O. S. Rodrigues – Universidade de Aveiro/IEETA

Resumo

Este trabalho surge no âmbito da análise de sequências de ADN. É apresen- tada uma técnica para análise do fenómeno das simetrias em cadeias simples de ADN no genoma humano (de notar que o fenómeno das simetrias está relacionado com a semelhan¸ca entre propor¸cões de pares de palavras que são complemento invertido entre si).

Assumindo que os nucleótidos se ligaram de forma aleatória seria de esperar que as probabilidades de ocorrência dos oligonucleótidos (também designados por palavras) só dependessem da probabilidade de ocorrência dos nucleóti- dos. Será de esperar que alguns oligonucleótidos tenham igual probabilidade de ocorrência: aqueles com a mesma composi¸cão em termos de nucleótidos (e.g. CAA; ACA; AAC). Se adicionalmente, assumirmos como válida a se- gunda lei de Chargaff [1-3], que estabelece que as frequências dos nucleótidos complementares são semelhantes (%A_{∼ %T e %C ∼ %G), esperamos igual} probabilidade de ocorrência em todas as palavras que contêm a mesma composi¸cão dos dois tipos de nucleótidos T1={A,T}, T2={C,G} (e.g. CAA; ACA;

AAC; GAA; AGA; AAG; CAT; ACT; ATC; CTA; TCA; TAC; GAT; AGT; ATG; GTA; TGA; TAG; CTT; TCT; TTC; GTT; TGT; TTG). A grupos de palavras com esta composi¸cão chamamos grupos de composi¸cão equivalente – GCE. Como facilmente se pode constatar, a semelhan¸ca entre propor¸cões de pares de palavras que são complemento invertido entre si, é uma carater´ıstica esperada até em sequências em que não existe estrutura de dependência entre os s´ımbolos.

Quando existe semelhan¸ca entre todas as propor¸cões de pares de palavras que são complemento invertido entre si, dizemos que se verifica o fenómeno de simetria básico. Quando dentro dos GCEs as palavras complementos invertidos

entre si têm frequência semelhante, mas distinta da dos restantes elementos do GCE, dizemos que se verifica o fenómeno de simetria não uniforme ou extraordinária.

Neste trabalho será introduzida uma medida para avaliar/caraterizar a simetria extraordinária. A medida é baseada numa razão entre a soma de desvios `

a uniforme nos GCEs e a soma de desvios ao fenómeno de simetria básico denotada por Rsimetria. A expressão 1− Rsimetria poderá ser interpretada

como uma medida da simetria n˜ao uniforme.

A amostra em estudo é o genoma humano de referência versão 37.1 dispon´ıvel na página do National Center for Biotechnology Information (http://www. ncbi.nlm.nih.gov/).

No genoma humano para os diferentes tamanhos de palavra em estudo (k _∈ {1, 2, ..., 12}), o Rsimetria apresenta valores muito acima de 1 (valor esperado

para os casos em que existe simetria básica e não existe simetria não uniforme). Também se observa que as palavras de tamanho 3 em rela¸cão às palavras em estudo parecem apresentar mais simetria não uniforme.

Dado que o ADN verifica o fenómeno da simetria, será a distribui¸cão nos GCEs significativamente não uniforme? No sentido de responder a esta ques- tão e avaliar a significância estat´ıstica do fenómeno de interesse são explorados testes de hipóteses. As hipóteses são testadas via método de Monte Carlo e naturalmente são usados dados simulados sob a validade da hipótese nula. De notar que a amostra em estudo é o genoma de referência com aproximada- mente 3GB de tamanho e pretende-se estudar o fenómeno da simetria não uniforme para vários tamanhos de oligonucleótidos, o que requer um grande poder computacional.

Referˆencias

[1] Rudner, R., Karkas, J. D., Chargaﬀ, E. (1964) Separation of B. subtilis DNA into complementary strands, I. biological properties., Proceedings of the National Academy of Sciences of the United States of America 60(2), 630–635. [2] Karkas, J. D., Rudner, R., Chargaﬀ, E. (1964) Separation of B. subtilis DNA into complementary strands, II. template functions and composition as determined by transcription with RNA polymerase., Proceedings of the

National Academy of Sciences of the United States of America 60(3), 915– 920.

[3] Rudner, R., Karkas, J. D., Chargaﬀ, E. (1964) Separation of B. subtilis DNA into complementary strands, III. direct analysis., Proceedings of the National Academy of Sciences of the United States of America 60(3), 921– 922.

Identifica¸c˜ao simultˆanea de biomarcadores em

estudos gen´eticos de associa¸c˜ao: Desafios esta-

t´ısticos e computacionais

(Comunica¸c˜ao)

Pedro Duarte Silva – Faculdade de Economia e Gest˜ao e CEGE Universidade Cat´olica Portuguesa/Porto

[email protected]

Resumo

Em estudos genéticos de associa¸cão é comum pesquisar a informa¸cão con- tida em grandes bases genéticas de dados com o objectivo de identificar um pequeno conjunto de marcadores relacionados com alguma doen¸ca ou uma caracter´ıstica genética de interesse. A disponibilidade de bases de dados con- tendo dezenas ou centenas de milhar de pequenas varia¸cões genéticas conheci- das como ”Single Nucleotide Polymorphisms”(SNPs) tem permitido encontrar algumas dezenas de SNPs associados, ou casualmente ligados, a condi¸cões clinicas de risco tais como anomalias card´ıacas, diabetes, ou vários tipos de cancro [4].

Em termos estat´ısticos, o problema central dos estudos de associa¸cão genética pode ser formalizado como um problema de seleçcão de variáveis (SNPs) em modelos de previsão para uma condi¸cão clinica de interesse. Este problema tem no entanto caracter´ıstica especificas, nomeadamente devido ao elevado numero de variáveis potencialmente preditivas, que é tipicamente muito su- perior ao numero de observa¸cões dispon´ıveis.

Devido às dificuldades computacionais envolvidas, muitas das metodologias inicialmente tentadas nestes problemas recorrem a técnicas univariadas, tais como o estabelecimento de rankings baseados em correla¸cões marginais [2]. Essas abordagens revelam-se incapazes de identificar combina¸cões de SNPs que só actuam quando agrupadas em conjunto, e mais recentemente várias técnicas multivariadas (ver, por exemplo, [1][3][5][6][7]) tem vindo a ser propostas e aplicadas com sucesso.

Nesta comunica¸cão far-se-á uma revisão de propostas recentes para o problema da identifica¸cão simultânea de biomarcadores em estudos genéticos de associa¸cão, discutindo-se as vantagens e limita¸cões das principais abordagens propostas, e identificando-se alguns dos desafios em aberto nesta área.

Referˆencias

[1] Ding, Y., Wilkins, D. (2006) Improving the Performance of SVM-RFE to Select Genes in Microarray Data, BMC Bioinformatics. 7.Suppl 2: S12. [2] Foulkes, A.S., (2009). Applied statistical genetics with R. New York: Springer.

[3] Guyon, I., Weston, J., Barnhill, S., Vapnick, V. (2002) Gene selection for cancer classification using support vector machines. Machine Learning. 46, 389-422.

[4] Hindorﬀ, L., Sethupathy, P., Junkins, H.A., Ramos, E.M., Metha, J.P., Collins, F.S. Manolio, T.A. (2009) Potential etiologic and functional impli- cations of genome-wide association loci for human diseases and traits. Proc. Natl. Acad. Sci. USA.

[5] Hoggart, C.J., Whittaker, J.C., De Iorio M., Balding D.J. (2008) Analysis of all SNPs, in genome-wide and re-sequencing association studies. PLoS Genetics. 4:e1000130.

[6] Zhang, C.H. (2010) Nearly unbiased variable selection under minimax con- cave penalty, Annals of Statistics. 38, 894-942

[7] Zuber, B., Duarte Silva, A.P., Strimmer, K. (2012) A novel algorithm for simultaneous SNP selection in high-dimensional genome-wide association studies, BMC Bioinformatics. 13:284.

Dete¸cão de inicia¸cão intragénica em dados de

No documento Estimação nos modelos bivariados de médias móveis de valor inteiro (páginas 59-64)