• Nenhum resultado encontrado

Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados

N/A
N/A
Protected

Academic year: 2021

Share "Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados"

Copied!
50
0
0

Texto

(1)

                  LAISE CAVALCANTI FLORENTINO             

 

Usando RINs para entender as mutações em câncer: mutações

 

 

 

 

 

 

 

 

 

deletérias são mais comumente associadas a aminoácidos

 

 

 

 

 

 

 

altamente conectados. 

                          Natal ­ RN    2018 

(2)

  LAISE CAVALCANTI FLORENTINO                   

Usando RINs para entender as mutações em câncer: mutações deletérias são                      mais comumente associadas a aminoácidos altamente conectados.                   

Dissertação  apresentada  ao  Programa  de  Graduação em Bioinformática da Universidade          Federal do Rio Grande do Norte como requisito        para a obtenção do título de Mestre em        Bioinformática. 

 

Orientador: Prof. Dr. João Paulo Matos Santos        Lima.  Co­orientador: Prof. Dr. Sandro José de Souza.                Natal ­ RN    2018 

(3)

Florentino, Laise Cavalcanti.

Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados / Laise Cavalcanti Florentino. - Natal, 2019.

51 f.: il.

Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro Multiusuário de Bioinformática do Instituto Metrópole Digital (BioME). Programa de Pós-Graduação em Bioinformática.

Orientador: Prof. Dr. João Paulo Matos Santos Lima. Coorientador. Prof. Dr. Sandro José de Souza.

1. Efeito de mutações - Dissertação. 2. Redes de interação de resíduos Dissertação. 3. Mutações deletérias e neutras -Dissertação. I. Lima, João Paulo Matos Santos. II. Souza, Sandro José de. III. Universidade Federal do Rio Grande do Norte. IV. Título.

RN/UF/BSE-CB CDU 575.224.2

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Leopoldo Nelson - -Centro de Biociências - CB

(4)

                                                                                 

(5)

                                                                              Dedico ao meu avô Antônio, meu maior   exemplo de sabedoria e humanidade. 

(6)

    AGRADECIMENTOS            A minha família por todo apoio.   À Cláudia pela paciência e companheirismo.    Ao meu grande amigo Badel, sem ele essa jornada não teria acontecido.  A todos do Biome, de onde vou levar muito aprendizado, maturidade e grandes  amigos.            ESTE TRABALHO FOI REALIZADO GRAÇAS AO AUXÍLIO DAS SEGUINTES  INSTITUIÇÕES:     Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela concessão  de bolsa de estudos e durante o período de agosto de 2016 até agosto de 2018, no âmbito  do projeto Rede Biologia Sistêmica do Câncer (BSC), processo  23038.004629/2014‑19.    Ao BioME pela concessão de espaço de trabalho e recursos computacionais.  Ao NPAD pelos recursos computacionais de alta­performance.  Ao Instituto Metrópole Digital (IMD) pelo suporte na realização do trabalho.  Ao PPg­Bioinfo pela formação.                             

(7)

      Usando RINs para entender as mutações em câncer: mutações deletérias são  mais comumente associadas a aminoácidos altamente conectados. 

 

Autora:  Laise Cavalcanti Florentino  Orientador:  João Paulo Matos Santos Lima  RESUMO   

Nas últimas décadas, avanços em pesquisas abordando o genoma completo levaram à identificação        de um grande número de mutações relacionadas ao câncer. Obter um alto desempenho nas        estimativas dos impactos de mutações em câncer na estrutura da proteína não é uma tarefa fácil, e a        maioria dos estudos está limitada a análises de estruturas completas, uma a uma. Além disso, ainda        existem muitos desafios no caminho para a previsão precisa e automatizada de mutações deletérias.        Assim, entender o impacto estrutural de uma mudança específica de aminoácido é de grande        importância para as pesquisas oncológicas. Entretanto, a maioria dos estudos tem enfatizado        sequências e modificações estruturais baseadas em características químicas de aminoácidos e não        nas características de conformação, nas quais a conservação de interações não­covalentes        desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de        interação de resíduos (RINs) para análises em grande escala de mutações  missense em câncer, a        fim de inferir seus efeitos na conservação de interações não­covalentes. Nossa hipótese é que        mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias.        Para avaliar isso, recuperamos mutações  missense de câncer dos bancos de dados COSMIC        (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas        respectivas estruturas, recuperadas do Protein Data Bank (rcsb.org). Em seguida, as RINs foram        construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de        aresta, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em        R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único       

missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de        câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/).        Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia        significativamente em comparação a simulações, tendendo a permanecer em nós com menor        conectividade. Também comparamos à distribuição de um conjunto de polimorfismos humanos de        nucleotídeo único (SNPs). Além disso, a proporção de mutações deletérias foi significativamente        aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados        para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida        do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos        aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido        a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a        conservação de interações não­covalentes é um parâmetro importante a ser considerado na        avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional        para auxiliar na previsão de mutações deletérias no câncer. 

 

Palavras­Chave:  Redes de interação de Resíduos, Efeito de mutações, Mutações deletérias e  neutras, Preditores. 

(8)

   

     

Using RINs to understand cancer mutations: deleterious mutations

 

   

 

 

 

 

 

are more commonly associated to highly connected amino acids 

 

Author:  Laise Cavalcanti Florentino  Adviser:  João Paulo Matos Santos Lima  ABSTRACT 

In the last decades, advances in whole­genome sequencing research lead to the identification        of a vast number of cancer­related mutations. Achieving high performance in estimating the impacts        of cancer mutations on protein structure is not an easy task, and most studies are limited to        one­by­one whole structural analysis. Moreover, there are still many challenges on the way to the        precise and automated prediction of deleterious mutations. Therefore, understanding the structural        impact of a particular amino acid change is hugely important for cancer medical research. However,        most studies have been emphasizing sequences and structural modifications based on chemical        characteristics of amino acids, not in fold features in which the conservation of non­covalent        interactions play a significant role. Henceforth, in the present study, we used residue interaction        networks (RINs) for large­scale analysis of cancer missense mutations in order to infer their effects on        the conservation of non­covalent interactions. We hypothesize that changes in highly connected        amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer        missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov)        databases and mapped them to their respective structures retrieved from Protein Data Bank        (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as        the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and        plotted using R scripts. Later, we compared these results against reported missense single nucleotide        polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and        non­pathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results        demonstrate that the distribution of mutations per degree (node   connectivity) varies significantly        compared to random Monte Carlo simulations, tending to remain at nodes with lower connectivity. We        also compare with the distribution of a set of human single nucleotide polymorphisms (SNPs).        Besides, the proportion of deleterious mutations was significantly increased in nodes with a high        degree of connectivity when two different criteria were used for their classification: proportions of        software predictors (Ndamage) and clinical classification obtained from ClinVar. Considering these        results, we can conclude that the changes in the highly connected amino acids are, in fact, more        prone to generate deleterious mutations, due their higher proportion of occurrence in these nodes.        Our results also indicate that the conservation of non­covalent interactions is an important parameter        to consider in the evaluation of mutations effects and RINs analysis can be used as an additional        parameter to aid in the prediction of deleterious mutations in cancer. 

 

Keywords:  Residue Interaction Networks, mutation effects, deleterious and neutral mutations,        mutation predictors. 

(9)

 

LISTA DE FIGURAS   

 

Figura 1.  A. Exemplo da estrutura tridimensional de uma proteína. B. A mesma proteína vista como uma rede de interação            de resíduos, em que os nós são os resíduos e as arestas as interações entre eles... 14  Figura 2.  Pipeline da mineração dos dados. A. Relacionamento entre os bancos de dados necessários e filtragens. B. Uso do RING para  gerar as RINs e alinhamento de posições. C. Geração de banco de dados final e análises. …....……….….18  Figura 3.  Resultados das médias das simulações de Monte Carlo em 100.000 rodadas (cinza) comparadas com a média das  mutações (em vermelho), constante, apenas com objetivo referencial. No eixo x as rodadas da Monte Carlo e no eixo y as  médias observadas………. 38  Figura 4.  Distribuição da quantidade de resíduos (eixo y) em relação ao grau de conectividade (eixo x). A. Distribuição de          todos os resíduos dos PDBs selecionados (mutações neutras em cor cinza médio, deletérias em cinza escuro e nós que não        apresentaram mutações cinza claro). B. Distribuição apenas dos resíduos que apresentaram mutações, para melhor        visualização.  C.  Distribuição  da  proporção  de  deletérias  e  neutras  por  grau  de  conectividade  ( degree )... 39  Figura 5. Usando o Comp         score   A . Gráfico de linha comparando valores do Comp       score   por degree considerando NDamage=0       

(cinza claro), 0<NDamage<5 (cinza médio) e NDamage>5 (cinza escuro)  B. Distribuição do subconjunto de mutações        incluindo  apenas  as  neutras.   C.  Distribuição  considerando  apenas  as  mutações  deletérias………...……….…….... 40  Figura 6. Gráfico contendo os valores das distribuição da quantidade de mutações por grau, ponderada pelo CompScore. Em          azul  todas  as  mutações,  em  vermelho o subconjunto de neutras e em verde o subconjunto das        deletérias……….……... 41  Figura 7. Distribuição das mutações por grau de conectividade usando um score de normalização (compScore). A.          Mutações. B. SNPs. C. Mutações deletérias do ClinVar que foram relacionadas com as mutações..……….….…… 42  Figura 8.  Comparação de deletérias entre ClinVar (no quadro à esquerda neutras, à direita deletérias) e NDamage (azul          neutras, laranja deletérias). No eixo x temos a quantidade de preditores em que a mutação foi considerada patogênica pelo        NDamage sobre a quantidade de preditores utilizados, no eixo y a quantidade de mutações em cada caso….……….…….. 43  Figura 9.  Posições relativas das mutações em relação aos PDBs ...……….…….….…….. 43  Figura 10. À esquerda a distribuição dos nós em relação à centralidade ( betweenness weighted ) considerando o NDamage                  para o preenchimento de cor, abaixo a proporção de deletérias e neutras. À direita a distribuição dos nós em relação ao        coeficiente de agrupamento ( clustering coef. ) com preenchimento de cor baseado no NDamage e abaixo sua proporção de              deletérias e neutras ……...………..….…….. 44  Figura 11. Distribuição do tipo de interações dos aminoácidos mutados. Proporção de deletérias (laranja) e neutras (azul) por        tipo de interação………...………..………....…….... 45  Figura 12.  Divisão dos aminoácidos por grupos químicos………..…….……… 47  Figura 13.  A. Distribuição das mudanças de grupos químicos das mutações e abaixo a proporção de deletérias (laranja) e  neutras (azul) para cada troca………..……….. 48    LISTA DE TABELAS      Tabela 1 ­  Preditores utilizados na definição do  NDamage  (tabela adaptada de LI, Q. et al., 2014)... 19  Tabela 2 ­  Quantidade total, de proteínas, de PDBs e de mutações após cada filtro ou processo……….... 37   

(10)

      LISTA DE ABREVIATURAS        RIN ­  Residue Interaction Network  ( Rede de Interação de Resíduos)    RING ­  Residue Interaction Network Generator  ( Gerador de Rede de Interação de Resíduos )    PPI ­  Protein­Protein Interaction network  (Rede de interação proteína­proteína)    SNP ­  Single Nucleotide Polymorphism  (Polimorfismo de Nucleotídeo Único)    TCGA ­  The Cancer Genome Atlas  ( O Atlas do Genoma do Câncer)   

COSMIC ­  Catalogue Of Somatic Mutations In Cancer ( Catálogo de Mutações Somáticas no                    Câncer) 

 

PDB ­  Protein Data Bank  ( Banco de Dados de Proteínas)   

SIFTS ­  Structure Integration with Function, Taxonomy and Sequence (Integração de                      Estrutura com Função, Taxonomia e Sequência)                                   

(11)

            SUMÁRIO      1. INTRODUÇÃO………..…………. 12    2. OBJETIVOS………..……….. 16    3. RESUMO DA ESTRATÉGIA EXPERIMENTAL ……….………...… 17         3.1   Obtenção e mineração dos dados………... 17        3.2   Dados usados para validação……… 18        3.3   Análises estatísticas e visualização dos dados……….. 20          4.   ARTIGO……….……...….. 22           5.   DISCUSSÃO E RESULTADOS ADICIONAIS ...…………...……….……... 37            6.   CONCLUSÃO E PERSPECTIVAS ………..……….….……... 49          REFERÊNCIAS ...………...……. 50                                 

(12)

 

1 INTRODUÇÃO 

 

Compreender as consequências das mudanças nas sequências biológicas é de suma        importância para as pesquisas biomédicas. Atualmente as variações no DNA são        consideradas diferenças em comparação  à sequência de referência do genoma humano , onde        os polimorfismos de nucleotídeo único (SNPs) são detectáveis em mais de 1% da população,        enquanto as mutações somáticas são as variações detectadas em menos de 1% (KARKI  et al .,            2015). 

Tais variações na sequência podem ser classificadas como  missense ­ em que a        substituição do nucleotídeo resulta em um aminoácido diferente, silenciosas ( silent ) ­ em que        a troca do nucleotídeo gera um códon diferente porém o aminoácido não é alterado e sem        sentido ( nonsense) ­ em que a troca gera um códon de parada, finalizando a síntese proteica,        geralmente antes do esperado.  

Mutações em oncogenes, responsáveis pelo crescimento celular, e genes supressores        de tumor, responsáveis pelo retardamento da divisão celular, podem levar a um crescimento        desordenado das células, ocasionando tumores ou até mesmo câncer (WAKS  et al ., 2016). A                identificação dos genes condutores ( driver genes ), ou seja, daqueles que possuem vantagem                seletiva no crescimento celular, é um dos principais desafios atuais nas pesquisas oncológicas        (TOKHEIM, 2016). Existem vários métodos e ferramentas com esse objetivo mas ainda com        falhas e muitas vezes discordantes entre si (BAILEY  et al ., 2018). 

O câncer é uma das principais causas de mortalidade no mundo e projeções mostram        que as incidências tendem a aumentar consideravelmente nas próximas décadas. As causas        podem ser tanto genéticas quanto ambientais/sócio­comportamentais, o que torna seu estudo        algo não trivial. Assim, muitos esforços vêm sendo realizados para auxiliar na descoberta de        métodos mais eficazes de prevenção e tratamento (MCDANIEL  et al ., 2017; MILROY  et al .,                    2018) e a bioinformática vem sendo uma poderosa aliada nessa busca (OLIVER  et al ., 2015). 

Nas últimas décadas diversos bancos de dados públicos foram criados no intuito de        unir informações em larga escala que possam ajudar nas pesquisas e análises relacionadas ao        câncer. Alguns dos mais conhecidos são:  The Cancer Genome Atlas (TCGA) (HUTTER e                    ZENKLUSEN, 2018), que fornece um atlas com alterações genômicas dos principais tipos de        câncer; o  Catalogue Of Somatic Mutations In Cancer (COSMIC) (TATE et al., 2018), que                    disponibiliza uma enorme variedade de dados de mutações somáticas; e o ClinVar        ( LANDRUM et al., 2018 ), que contém variantes com associação clínica (PAVLOPOULOU  et         

al ., 2015; DUMUR, 2014). 

Na tentativa de avaliar o impacto das mutações e identificar as deletérias, preditores        (como SIFT, PolyPhen­2, MutationTaster,  FATHMM, entre outros)  foram desenvolvidos        utilizando diversos métodos ou até mesmo unindo diferentes algoritmos já existentes. Porém,        apesar de serem muito úteis e bastante utilizados, ainda há a necessidade de novas        descobertas e ajustes para que a exatidão dessas ferramentas possa ser melhorada (DONG  et         

(13)

 

al ., 2015), como a busca de novos parâmetros que ajudem na tomada de decisão quando        houver contradição entre os preditores.  

Os efeitos sequenciais e pontuais das mutações em câncer são bem conhecidos, porém        com o crescente número de estruturas proteicas e as várias ferramentas disponibilizadas, os        efeitos estruturais dessas mutações também vêm sendo cada vez mais explorados (NIU  et al .,            2016). O Protein Data Bank (PDB) é o principal repositório de estruturas 3D (Fig. 2A) e tem        sido de suma importância para esse avanço (BURLEY  et al ., 2017). Uma forma eficiente de                avaliar o impacto dessas mutações é analisando a estrutura completa da proteína utilizando­se        da modelagem molecular, por exemplo, o que não é algo trivial e ainda dificulta a análise em        larga escala ( BHATTACHARYA  et al. , 2017,  GAO  et al ., 2017;  JUBB  et al .,2017) 

A composição e dinâmica dos resíduos de uma proteína está intimamente ligada à sua        função e entender o impacto de uma mutação na proteína vai muito além da simples troca de        aminoácido. O quanto essa mudança vai interferir nas ligações com outros resíduos e,        principalmente, estimar a importância do aminoácido na estrutura da proteína é de extrema        importância  para  um  melhor  entendimento  das consequências conformacionais      (BRYSBAERT  et al ., 2018). 

As informações para a formação da estrutura estão contidas em sua sequência de        aminoácidos (o Dogma de Anfinsen), mas apesar do grande tamanho de seqüência, o espaço        de conformação da estrutura é bastante limitado. Dessa forma, sequências dissimilares podem        dar origem a estruturas semelhantes. ( PANCSA et al., 2016 ). A conservação das interações        químicas é a base da compreensão dos determinantes estruturais subjacentes dos  folds        proteicos, já que uma mutação pode ou não afetar um importante resíduo para a estabilidade        da estrutura global de uma proteína. 

Assim, uma forma extremamente eficaz de representação da estrutura de proteínas,        mais focada na conservação das interações químicas entre os diferentes aminoácidos são as        redes de interação de resíduos (RINs) (Figura 1). Utilizando essa abordagem é possível        estimar a importância dos resíduos na proteína devido ao fato de termos a visão da proteína        como um grafo, em que os nós são resíduos da proteína (principalmente aminoácidos) e as        arestas são as interações físico­químicas entre esses resíduos (interações iônicas, interações       

­ , van der Waals, ligações de hidrogênio)  (GREWAL  et al ., 2015).  

O RING 2.0 (Piovesan  et al. , 2016) é uma ferramenta para construção de RINs                relativamente recente e pode ser aplicada para a análise e previsão do impacto de        polimorfismos e mutações. Nela basta fornecer um arquivo .pdb como entrada e o software        tem como saída um arquivo com informações a respeito dos nós e das arestas daquela        estrutura. Algumas informações geradas geradas são fator de temperatura ( B­factor ), grau de        conectividade do nó ( degree), tipos de interações químicas (intra e inter cadeias) entre os        resíduos, distância, ângulo, etc. 

 

(14)

 

          

Figura 1.  A. Exemplo da estrutura tridimensional de uma proteína. B. A mesma proteína vista como uma rede            de interação de resíduos, em que os nós são os resíduos e as arestas as interações entre eles 

 

Outros parâmetros de grafos podem ser calculados a partir das informações fornecidas        pelo RING e são informações valiosas para o entendimento da importância de um nó na rede.        Entre eles estão o coeficiente de agrupamento ( clustering coefficient ), que mede a tendência              dos nós se agruparem, baseado no grau de agrupamento dos nós vizinhos, e centralidade do        nó ( betweenness weighted ), em que se considera a quantidade de menores caminhos que          passam por aquele nó. 

Levando essa abordagem de rede de interação de resíduos para as mutações em        câncer, algumas questões podem ser levantadas: 

­ Mutações relacionadas ao câncer e polimorfismos de nucleotídeo único        (SNPs) exibem padrões semelhantes de ocorrência?  

­ O que acontece se a modificação específica de AA mantiver a maior parte das        interações não covalentes do resíduo original? 

­ Há uma correlação entre essas mudanças e padrões de conservação de resíduos        em mutações ou SNPs? 

Além disso, já é bem conhecido que nas redes de interação proteína­proteína (PPI), as        proteínas que apresentam um alto número de interações tendem a ter um menor número de        substituições em sua sequência (Fraser et al. 2002; Holland et al., 2017). Devido a isso, as        seguintes questões também foram levantadas: 

­ Os mesmos princípios das PPIs se aplicam a resíduos altamente conectados        em uma determinada proteína? 

­ Os aminoácidos com baixo número de interações químicas são mais propensos        a mutações? 

­ As mutações deletérias estão mais associadas a sequências de aminoácidos        altamente conectadas? 

(15)

  Para responder a essas questões, elaboramos uma abordagem para estabelecer relações        entre mutações  missense em câncer e parâmetros de rede em seus respectivos locais de        sequência. Nossa hipótese é que as mudanças em aminoácidos com um maior número de        conexões aumentam as chances de gerar mutações deletérias, o que tornaria os parâmetros        das RINs uma informação complementar para previsão dessas mutações. 

 

1.1 Justificativa 

 

Muitos esforços têm sido feitos para uma identificação mais precisa das mutações que        estão diretamente relacionadas ao desenvolvimento de determinado tipo de câncer, no        entanto, ainda existem inúmeros desafios para tal tarefa (YI, S. et al., 2017). As ferramentas        que prevêem o impacto das mutações desenvolvidas até o momento ainda não são        suficientemente precisas, apresentando predições com resultados contrastantes. Percebe­se        então, uma grande necessidade de buscar novas abordagens que possam melhorar esses        algoritmos. 

A forma que a proteína se estrutura está intimamente ligada à sua função, tornando de        extrema importância entender como os aminoácidos estão ligados e como mutações vão        impactar a estrutura proteica como um todo. As redes de interação entre resíduos (RINs) nos        permitem justamente levar em consideração as ligações químicas secundárias que são        essenciais para a manutenção da estrutura tridimensional da proteína. 

Com esse tipo de visualização e a forma como seus dados são estruturados é possível        utilizar uma abordagem em larga escala para o entendimento das propriedades dinâmicas e        estruturais das proteínas. Além de permitir o cálculo de parâmetros de teoria dos grafos,        sendo um adicional ao usar técnicas de análise de dados na busca de padrões ainda não        observados ou comprovados.  

Acreditamos que dados gerados pela análise das RINs possam indicar locais nas        proteínas que são mais passíveis de sofrer mutações ou locais onde estas terão efeitos mais        danosos. Com essas informações parâmetros adicionais podem ser utilizados para ajudar na        predição de mutações deletérias diretamente associadas ao desenvolvimento do câncer.                        

(16)

 

2 OBJETIVOS   

 

Objetivo geral 

Mapear e encontrar relações entre mutações associadas ao câncer e dados gerados        pelas redes de interação entre resíduos (RINs), com a finalidade de entender como essas        mutações causam impacto na estrutura e função das proteínas. 

 

Objetivos específicos 

 

⬩ Relacionar as informações das RINs com as do banco de mutações em um        banco único. 

⬩ Realizar análises estatísticas para observar os padrões e correlações entre os        dados obtidos. 

⬩ Avaliar a importância da conservação de interações químicas entre        aminoácidos. 

⬩ Comparar os padrões encontrados para mutações relacionadas a câncer com os        padrões encontrados em polimorfismo de nucleotídeo único (SNPs) e com        dados clínicos do ClinVar.                               

(17)

 

3 RESUMO DA ESTRATÉGIA EXPERIMENTAL   

3.1 Obtenção e mineração dos dados   

Dados de mutações em câncer foram retirados dos bancos  The Cancer Genome Atlas ­                TCGA (TOMCZAK  et al ., 2015) e  Catalogue Of Somatic Mutations In Cancer ­ COSMIC                            (FORBES  et al ., 2015) e curados manualmente para um banco de dados relacional. Para          predição do efeito de cada mutação, 9 diferentes preditores de impacto foram utilizados        (TABELA 1). O escore  NDamage resume esta informação, contendo o número de preditores        nos quais a mutação foi classificada como deletéria (PUTNAM  et al ., 2016). Essa variável foi                imprescindível para as análises posteriores. Depois, apenas as mutações  missense e que        ocorriam em regiões codificantes foram filtradas. 

O cruzamento das informações entre os registros do banco Uniprot e as estruturas        tridimensionais de proteínas resolvidas presentes no banco PDB foram obtidas por meio do        arquivo “pdbtosp.txt”, presente no site do UniProt (www.uniprot.org/docs/pdbtosp) e        relacionadas com os dados de mutações. Nesse ponto filtramos também apenas os PDBs        obtidos através da técnica de cristalografia de Raios­X e com resolução menor que 2.6 Å,        para garantir uma boa qualidade da estrutura. Além disso foram consideradas apenas        proteínas "selvagens" ( Wild Protein ). 

Para mapear a posição de alguns PDBs com a correta posição na sequência UniProt,        adicionamos ao banco informações do SIFTS (www.ebi.ac.uk/pdbe/docs/sifts). Além desse        mapeamento foi necessária a criação de um procedimento para automatizar o alinhamento de        posições das mutações com o registro de sequência do banco UniProt, que em alguns casos        não era correspondente à posição obtida no arquivo PDB com as coordenadas estruturais.        Para isso foi criado um algoritmo para resolver tais discrepâncias, utilizando uma estratégia        de varredura ambilateral da sequência, “shift left” e “shift right”, a partir da posição média da        mutação, buscando um alinhamento de pelo menos 80% dos aminoácidos (critério        estabelecido devido às variações naturais das sequências). As posições remanescentes que        não foram alinhadas ou que não tinham uma quantidade suficiente foram descartadas. 

Para construção das redes de interação de resíduos (RINs) utilizamos o software        RING 2.0 (     PIOVESAN  et al. ,2016     ). Assim, todos os arquivos PDBs relacionados às        mutações obtidas após os filtros foram obtidos a partir do  Protein Data Bank (            www.rcbs.org ),  para serem utilizados posteriormente como entrada. Criamos um  script em Python para        automatizar esse procedimento para cada um dos PDBs. A saída do software foram arquivos        com informações de nós ( Nodes ) e de arestas ( Edges ) para cada PDB. Essas informações        também foram adicionadas ao banco e relacionadas. 

(18)

  Além das informações obtidas com o RING 2.0 também calculamos, por meio dos        arquivos de saída, outros parâmetros de grafos associados aos nós ­ coeficiente de        agrupamento e centralidade ­ adicionando ao banco tais resultados. 

O Coeficiente de clusterização mede o grau de agrupamento dos vizinhos de um nó,        com resultado variando de 0 a 1, sendo 1 referente ao número máximo de conexões possível.        Para o cálculo foi utilizada a seguinte fórmula:  

N umber of  triangles of  node(i)

0.5 × Degree of node  × (Degree of node  + 1)(i) (i) ( 1) 

Um triângulo ocorre quando dois vizinhos do nó interagem entre si, então sabendo o        grau do nó e o número de triângulos através da função count_triangles do pacote igraph                (http://igraph.org/) foi possível calcular tal parâmetro. 

O  betweenness weighted ( intermediação)  mede a centralidade de um nó da rede com          base no número de caminhos mais curtos que passam por ele. Foi calculado utilizando a        distância entre os aminoácidos como peso da aresta e normalizando o resultado (variando        entre 0 e 1). Esta métrica foi calculada com a função  betweenness  do pacote igraph. 

Ao final do processo, como geralmente tínhamos mais de um PDB associado a uma        mesma proteína, para evitar redundâncias selecionamos apenas um código PDB por mutação        e isso foi feito selecionando­os por meio dos seguintes critérios: maior tamanho, melhor        resolução e ordem alfabética, respectivamente (Figura 2).     Figura 2.  Pipeline da mineração dos dados. A. Relacionamento entre os bancos de dados necessários e  filtragens. B. Uso do RING para gerar as RINs e alinhamento de posições. C. Geração de banco de dados final e  análises.   

(19)

   

3.2 Dados usados para validação   

Estabelecemos o critério de classificação de mutações deletérias/neutras por meio do       

NDamage, consideramos deletérias aquelas em que pelo menos cinco preditores classificaram        como danosas e as demais consideramos neutras. Ao todo foram utilizados nove preditores        descritos na Tabela 1:  

 

Tabela 1 ­  Preditores utilizados na definição do  NDamage  (tabela adaptada de LI, Q. et al., 2014) 

 

Preditor  Referência  Estratégia 

SIFT  Predicting the effects of coding  non­synonymous variants on protein  function using the SIFT algorithm.  Kumar P, Henikoff S, Ng PC  Nat Protoc. 2009; 4(7):1073­81.    (http://sift.bii.a­star.edu.sg/)  Baseia­se no grau de conservação de  aminoácidos em alinhamentos derivados de  sequências estreitamente relacionadas,  coletadas através do PSI­BLAST.  Polyphen2 HDIV  A method and server for predicting  damaging missense mutations.  Adzhubei IA, Schmidt S, Peshkin L,  Ramensky VE, Gerasimova A, Bork  P, Kondrashov AS, Sunyaev SR  Nat Methods. 2010 Apr; 7(4):248­9.    (http://genetics.bwh.harvard.edu/pph2/)  Utiliza o classificador Naive Bayes  para predizer o impacto da substituição  de aminoácidos. Baseia­se tanto na  sequência quanto na estrutura.  HDIV identifica as mutações  prejudiciais assumindo diferenças  entre proteínas humanas e os seus  homólogos de mamífero intimamente  relacionados como não­prejudiciais.  Polyphen2 HVAR  A method and server for predicting  damaging missense mutations.  Adzhubei IA, Schmidt S, Peshkin L,  Ramensky VE, Gerasimova A, Bork  P, Kondrashov AS, Sunyaev SR  Nat Methods. 2010 Apr; 7(4):248­9.    (http://genetics.bwh.harvard.edu/pph2/)  Utiliza o classificador Naive Bayes  para predizer o impacto da substituição  de aminoácidos. Baseia­se tanto na  sequência quanto na estrutura.  O HVAR identifica mutações  causadoras de doenças humanas,  assumindo que os nsSNPs humanos  comuns são não­prejudiciais.  MutationAssessor  Predicting the functional impact of  protein mutations: application to  cancer genomics.  Reva B, Antipin Y, Sander C  Nucleic Acids Res. 2011 Sep 1;  39(17):e118.    (http://mutationassessor.org/r3/)  Prevê o impacto funcional das  substituições de aminoácidos baseado  na conservação evolucionária do  aminoácido afetado em proteínas  homólogas.  MutationTaster  MutationTaster evaluates 

(20)

  sequence alterations.  Schwarz JM, Rödelsperger C,  Schuelke M, Seelow D  Nat Methods. 2010 Aug; 7(8):575­6.    (http://www.mutationtaster.org/)  doenças da alterações na sequência de  DNA. Integra informações de  conservação evolutiva, alterações no  sítio de splicing, perda de  características protéicas e alterações  que podem afetar a quantidade de  mRNA de diferentes bases de dados  biomédicos e utiliza ferramentas de  análise estabelecidas.  LR  Agresti A. (2002) Categorical Data  Analysis. Wiley­Interscience, New  York.  Abordagem baseada em agrupamento  que integra múltiplos sistemas de score  (de predição de função e conservação)  por meio de regressão logística.  LRT  Identification of deleterious mutations  within three human genomes.  Chun S, Fay JC  Genome Res. 2009 Sep;  19(9):1553­61.    (http://www.genetics.wustl.edu/jflab/lrt_ query.html)  Identifica posições conservadas de  aminoácidos e mutações deletérias  usando um conjunto de dados  genômicos comparativos de múltiplas  espécies de vertebrados.  RadialSVM  Corinna Cortes V.V. (1995)  Support­vector networks. Mach.  Learn., 20, 273–297  Abordagem baseada em agrupamento  que  integra vários sistemas de  score(de predição de função e  conservação) por meio de máquina de  suporte vetorial radial.  FATHMM  Predicting the functional  consequences of cancer­associated  amino acid substitutions.  Shihab HA, Gough J, Cooper DN,  Day IN, Gaunt TR  Bioinformatics. 2013 Jun 15;  29(12):1504­10.    (http://fathmm.biocompute.org.uk/)  Análise funcional através de modelos  ocultos de Markov. Prevê as  conseqüências funcionais de  substituições de aminoácidos  associadas ao câncer usando um  modelo ponderado para mutações de  doenças hereditárias.     

Para verificar a precisão do nosso critério obtemos dados do ClinVar ( LANDRUM et        al., 2018) e as mutações comuns aos dois bancos foram salvas à parte para análise e        comparação. As mutações com significância clínica identificada como benigna ou        provavelmente benigna consideramos neutras, e as com significância clínica identificada        como patogênica ou possivelmente patogênica consideramos deletérias. 

Utilizamos, ainda, o banco dbSNP (SHERRY et al., 2001), que foi inserido em um        banco de dados separado onde foi realizado um procedimento semelhante ao aplicado no        banco de mutações (relacionamento com PDB, alinhamento, relacionamento com parâmetros        das RINs). Com isso pôde­se comparar as diferenças nos padrões das mutações em câncer        com os padrões que ocorrem nos SNPs. 

(21)

      3.3 Análises estatísticas e visualização dos dados    Ao final, os arquivos gerados foram:   

⬩ Mutations_Nodes.csv , contendo os dados de mutações após todos os filtros e        relacionamentos realizados na etapa de mineração. 

⬩ NodesAll.csv , contendo informações de todos os nós de todos os PDBs        humanos,  wild type , obtidos com raio­x e resolução < 2.6 Å 

⬩ NodesSelected.csv, contendo um subconjunto do arquivo acima, com todos os        nós mas apenas dos PDBs relacionados à tabela final de mutações. 

⬩ Clinvar_Mutations.csv , contendo os dados de mutações do ClinVar que foram        relacionados com a tabela final de mutações. 

⬩ SNP_Nodes.csv , contendo os dados do banco dbSNP relacionados à PDBs e        parâmetros das RINs. 

 

Para comparar resultados e comprovar padrões de distribuições realizamos simulações        de Monte Carlo, em que a mesma quantidade de nós mutados foi sorteada aleatoriamente do        conjunto total de nós dos PDBs utilizados ( NodesSelected ) por 100.000 vezes. O teste de        Wilcoxon também foi realizado para a comparação das médias das distribuições não        paramétricas. 

Um escore de normalização (Comp score ) (Equação 1) foi formulado para termos uma        melhor visualização da distribuição dos nós mutados em relação ao seu grau de        conectividade. O escore leva em conta não só a quantidade de mutações por         grau de    conectividade do nó     , mas também compara com o total de nós (mutados ou não) naquele        grau, ponderando a distribuição.                4 ARTIGO submetido 

(22)

are more commonly associated with highly connected amino

2

acids

3

Laise C. Florentino1,2, Diego A. A. Morais1,2, Diego G. Teixeira2,3, Rodrigo J. S. Dalmolin2,3, 4

Jorge E. S. Souza2, Sandro J. de Souza2,4 and João Paulo M. S. Lima2,3* 5

6

1 - Programa de Pós-Graduação em Bioinformática (PPg-Bioinfo), Instituto Metrópole 7

Digital (IMD), Universidade Federal do Rio Grande do Norte (UFRN), Natal, RN, Brazil, 8

2 - Bioinformatics Multidisciplinary Environment (BioME), IMD, UFRN, Natal, RN, 9

Brazil, 10

3 - Department of Biochemistry, UFRN, Natal, RN, Brazil; Institute of Tropical Medicine 11

of Rio Grande do Norte (IMT-RN), Natal, Rio Grande do Norte, Brazil, 12

4 - Brain Institute, UFRN, Natal, Brazil. 13

Abstract

14

Many efforts to identify cancer-associated mutations have been made, most at the 15

sequence level. The understanding of the structural impact of a given amino acid change 16

is of major importance to cancer medical research. In the present study, we used residue 17

interaction networks (RINs) for large-scale analysis of cancer missense mutations to infer 18

their respective structural effects. We hypothesize that changes in highly connected 19

amino acids are more likely to give rise to deleterious mutations with more drastic 20

structural effects. For this, we analyzed several network parameters from RINs to 21

establish which ones are more common in sequence sites (nodes) with an occurrence of 22

reported missense cancer mutations. Our results demonstrate that the distribution of 23

somatic mutations per degree (node connectivity) varies significantly compared to the 24

distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain 25

at nodes with lower connectivity. Besides, the proportion of deleterious mutations was 26

significantly increased in nodes with a high degree of connectivity when two different 27

criteria were used for their classification: prediction as deleterious in at least five out nine 28

software predictors and clinical classification obtained from ClinVar database. Taking 29

into account these results, we can conclude that the changes in the highly connected 30

amino acids are indeed more likely to generate deleterious mutations, due to their higher 31

proportion of occurrence in these nodes. RINs can be used as an additional parameter to 32

aid in the prediction of the impact of cancer mutations. 33

34

1 Introduction

35

Deleterious mutations are those that have stronger phenotypic consequences, making 36

their prediction essential for cancer research. Since not all predicted deleterious missense 37

mutations are disease-causing, there are still many challenges on the way to their precise 38

and automated identification (Stehr et al. 2011), especially the ones that can give rise to 39

driver mutations. For long, researchers have been studying methods to discriminate these 40

mutations from harmless variants (Petukh et al., 2015). Although several tools are 41

available to perform this task, there are still limitations, and it is common to obtain 42

different conclusions from their results (Gress et al., 2017; Bailey et al., 2018). 43

One effective way to study the structural impacts and effects caused by cancer-44

associated mutations is a whole protein structure analysis (Gao et al., 2017). Recently, 45

with the growing number of protein structures and the variety of tools available for their 46

exploration, efforts in this sense have been increased (Niu et al., 2016). This approach 47

(23)

constraints, consequences from a given change (Jubb et al., 2017). Other studies have 49

emphasized sequence-based phylogenetic information, structural modifications based on 50

chemical characteristics of amino acid side chains, as well as functional, physicochemical 51

and biophysical features (Petukh et al. 2015; Echave et al. 2017). However, this is not a 52

straightforward task, since it requires full structure assessment and modeling techniques, 53

especially when applied to multiple proteins or multiple mutations in the same protein 54

(Bhattacharya et al. 2017). 55

One way that disease-causing missense mutations exert their effects is by 56

alterations of important amino acid residue properties (Gress et al., 2017). The 57

identification of essential residues to protein structure and function can also be inferred 58

by their degree of connectivity through chemical noncovalent interactions with other 59

amino acids or ligands since the conservation of these interactions plays a significant role 60

on structure conservation and consequently protein function (Fornasari et al., 2007; 61

Kucukkal et al., 2015). This information can be easily assessed by the construction of 62

residue interaction networks (RINs) from a given structure (a pdb file). In a RIN, each 63

amino acid is treated as a node and its connections as edges (Piovesan et al., 2016). This 64

kind of representation improves data handling and accelerate the analysis of the functional 65

impact of several mutations. 66

A network approach to understanding the structural and functional impacts of 67

cancer mutations raises some interesting questions. Amino acids with a low number of 68

chemical interactions are more prone to mutations? Are deleterious mutations associated 69

with highly connected amino acid sequence sites? Do cancer mutations and single 70

nucleotide polymorphisms (SNPs) display similar patterns of occurrence? To answer 71

these questions, we devised an approach to establish relationships between missense 72

mutations from sixteen cancer types to network parameters of their respective sequence 73

sites. We show that changes in highly connected nodes are more significantly associated 74

with deleterious mutations. Furthermore, our data shows the utility of RINs as an effective 75

way to predict the functional impact of mutations in proteins. 76

77

2 Methods

78

2.1 Data retrieving and dataset formatting 79

Datasets of cancer mutations were retrieved from The Cancer Genome Atlas 80

(TCGA) and Catalogue Of Somatic Mutations In Cancer (COSMIC) up to 2016 and 81

filtered to select only missense mutations occurring in coding regions. Data were merged 82

and manually curated in an SQL database to relate all necessary data for the analysis 83

(Supplementary Table S1). One of the columns added was the Ndamage, a score 84

containing the number of prediction tests that predict a mutation as deleterious (Putnam 85

et al., 2016). Using this score, we considered a deleterious mutation when at least five 86

predictors (out of 9) predict them as so. Supplementary Table S2 lists all the predictors 87

used in this study. 88

Tridimensional protein structures information for these genes were obtained using 89

cross-reference between uniprot_kb to PDB codes listed in the pdbtosp.txt file, obtained 90

from UniProt (The UniProt Consortium, 2017). Additional filtering was applied to 91

complete the pdb dataset for later analysis: wild-type proteins (percent coverage of 92

UniProt sequence ≥ 95%) with structures obtained by X-ray method and with resolution 93

<2.6 Å. Then, the remaining pdb codes were associated with the mutation table. 94

(24)

From the above database, the position of each cancer mutation was mapped to the 96

respective UniProt record. To assign to the correct residue position in the pdb, we used 97

SIFTS (Velankar et al., 2013). However, in some PDB files, the changed amino acid did 98

not match to the same position in the UniProt sequence record (Prlic et al., 2016). To 99

correct these unpaired sites, we created an alignment algorithm to ensure that at least 90% 100

of amino acids in distinct positions for each UniProt sequence (due to natural variants) 101

were aligned (Supplementary File 1). Mutations that could not be mapped were discarded 102

(those not having enough mutations by UniProt to give certainty of a correct mapping or 103

when returned alignments were worse than the established threshold). To avoid 104

redundancies, we used just one pdb file associated with the same uniprot_id and mutation 105

position, sorted by broader sequence coverage, better resolution, and alphabetical order, 106

respectively. Thus, PDB files encompassing the maximum number of positions were 107

chosen and downloaded from the RCSB PDB website (rcsb.org). 108

Residue interaction networks were constructed using RING 2.0 software 109

(Piovesan et al., 2016) which generated nodes.txt and edges.txt files for each PDB. We 110

merged these results into our database as an attribute in the main table using a custom 111

python script. From edges.txt output file, graph parameters like clustering coefficient and 112

weighted betweenness centrality were calculated for each node and also added to our 113

database. To calculate the clustering coefficient without going through all the network, 114

we used the following equation: 115

116

In this case, a triangle occurs when two neighbors of a Node(i) interact with each 117

other. Therefore, we counted the number of triangles using the function count_triangles 118

of the R package igraph (http://igraph.org/). Through the equation (1), the estimated 119

clustering coefficient ranges from 0 to 1, where 1 is the maximum possible number of 120

connections. Note that, if a given node has only two neighbors and they form a triangle, 121

the clustering coefficient is equal to 1. The parameter of betweenness centrality computes 122

node centrality concerning the number of shorter pathways that pass through it (Zhang et 123

al. 2016). Using RING2.0 files, we normalized the betweenness centrality utilizing the 124

distance between each amino acid (edges) as weight and calculated it using the 125

betweenness function of igraph. The results range from 0 to 1; thus a value of 0.1 means 126

that 10% of the shortest pathways of the network pass through that node. 127

128

2.3 Comparisons with SNPs and ClinVar data

129

We also performed a network parameters analysis in sequence sites with reported 130

occurrence of SNPs. For this, we used data from the Database for Short Genetic 131

Variations (dbSNP) (Sherry et al., 2001) to compare with the parameters trends observed 132

from the cancer mutation dataset. Only SNPs in uniprot_id and PDBs previously selected 133

were analyzed, using the methodology mentioned above. Also, we cross-referenced our 134

database to mutations listed in ClinVar database (Landrum et al., 2016) to verify if the 135

use of NDamage is indeed a reasonable criterion to predict the possibility of a given 136

mutation being deleterious. For this, we retrieved all mutations from ClinVar and 137

performed annotations with SnpEff/SnpSIFT, considering only non-synonymous 138

mutations. Then, we grouped ClinVar mutations identified as “benign” (2-non-139

(25)

“likely pathogenic” (4-probable pathogenic) or “pathogenic” (5-pathogenic) 141

(Supplementary Table S3), in two higher categories, neutral (clinvar=2) and deleterious 142

(clinvar=5), respectively. The same RINs parameters for these mutations were also 143

calculated for comparison and validation. 144

2.4 Statistical Analyses and data visualization

145

At the end of the data mining process, 4 csv files were generated and loaded as 146

data frame in R: The primary database (MutatedNodesEdgesGraph); all nodes from 147

selected PDBs, including the ones that were not targeted for the observed mutations, and 148

their respective network parameters (AllNodes); mutations that were classified as 149

pathogenic in Clinvar (MutationsClinvar); and dbSNP filtered by the selected Uniprots 150

(SNPs). 151

A normalization score (CompScore) was formulated to have a better visualization of

152

the distribution of mutated nodes by degree, considering not only the number of mutations 153

per degree alone but also comparing the total of nodes with that degree. Thus, if there is 154

a small number of nodes with given connectivity (degree) considering all nodes, a 155

mutated node in that degree will have a higher weight, since its lower probability of 156

occurrence. The following equation calculates Comp-Score: 157

158

Monte Carlo Simulations were performed to compare the obtained results to a 159

purely probabilistically distribution. For this, the same number of mutated nodes were 160

randomly drawn (taking into consideration that different mutations can occur in the same 161

node), from the total group of nodes (AllNodes), for 100.000 times. Only nodes related to 162

amino acids positions were considered. Wilcoxon's test assessed significant differences 163

from parameters distributions of MutatedNodes and AllNodes. 164

165

3 Results and discussion

166

Structural constraints are long known to influence amino acid variation among 167

protein sites (Echave et al. 2016). It is conceivable that a given mutation can have a 168

destabilizing effect in the protein, but not all local changes will have impacts on the 169

function (Kucukkal et al. 2015). Using RINs, we can analyze both local and global 170

changes induced by mutations, since the effect on the conservation of all non-covalent 171

interactions can be assessed. Therefore, to answer one of our first questions, if mutations 172

in amino acids with a higher number of non-covalent interactions are more likely to be 173

deleterious, we first focused the analysis in the distribution of node degree. 174

From our initial gene set of 7,423 genes with reported cancer-associated 175

mutations, a total of 17,196 mutations in 466 genes and 462 UniProt records were 176

matched to experimentally resolved protein structures (PDB) within our inclusion criteria. 177

After RIN construction for each one of these PDBs, we first analyzed non-edges 178

parameters. We observed a significant difference between the mean from the distribution 179

of degrees from all nodes (of selected PDBs), independently if they are mutated or not, 180

and the one from the distribution of mutations in nodes where at least one mutation was 181

mapped (p<2.2×10-16; Wilcoxon test) (Figure 1A). Considering our criteria to differentiate 182

deleterious and neutral mutations (using the parameter NDamage - see Methods section), 183

(26)

different (p<2.2×10 ; Figure 1B) and the proportion of deleterious mutations 185

(NDamage>5) is positively associated with the degree, i. e. the connectivity of a given 186

protein site (Figure 1C). These findings corroborate previous conclusions that the pattern 187

of amino acid substitution for a given sequence site depends on its interactions with other 188

residues (Fornasari et al. 2007). 189

To verify if the pattern of mutation distribution across the nodes is non-random, 190

100.000 rounds of Monte Carlo random simulations were performed. From this 191

randomized dataset, it was observed that the mean of their degrees' distribution remained 192

approximately 4.741, whereas the one from real reported mutations was 4.577 193

(p=1.301×10-13). Moreover, there is no significant difference between the mean of

194

simulations and the one obtained from all nodes (p=0.996) of the studied PDB dataset. 195

Taking into account the above results, we can conclude that there is a negative association 196

between residue degree and deleterious mutations. Gress et al. (2017) showed similar 197

results, where non-synonymous single nucleotide variants (nsSNVs) associated with 198

diseases were enriched in protein-ligand and protein-DNA contacts when compared to 199

random datasets. In fact, similar trends are also observed in other reports based on 200

biological network approaches, for example in protein-protein interactions (PPI), where 201

proteins with a higher number of interactions tend to present a lower number of 202

substitutions in their sequence (Holland et al., 2017). 203

Even though significant differences were found between randomized data and our 204

mutation dataset, the vast majority of the nodes from protein structures still have small 205

degrees values, ranging from 1 to 10. Therefore, to have a better evaluation of the 206

distributions trend, a normalized score (CompScore - see Methods section) was created 207

to take into consideration the low probability of a mutation occurring in less represented 208

nodes. By applying this score, a more striking difference is observed in the patterns of 209

degree distribution between deleterious and neutral mutations, as can be evidenced in 210

Figure 2. Deleterious mutations show increases in the weighted frequency until the degree 211

value of 11 (Figure 2B) whereas neutral mutations occurrence decreases linearly as the 212

degree value increases (Figure 2C). Considering the weighted distribution from both 213

types of mutations (Figure 2A), a similar trend to the one observed in a dataset with 214

251,284 non-synonymous SNPs (Figure 2E and Supplementary Figure 1) is observed. 215

Talavera et al. (2010) also reported that in general, patterns of cancer-associated 216

mutations and polymorphisms are indeed very similar. However, this absence of variation 217

does not sustain after separation of the neutral and deleterious mutations, similarly as 218

previously observed in mutations of tumor suppressors genes and oncogenes, which also 219

present opposing trends of occurrence in protein surfaces, functional sites and stability 220

(Stehr et al. 2011). 221

To verify if our classification criterion is adequate, we also analyzed and 222

compared the normalized distribution of mutations predicted as neutral by all predictors 223

(NDamage=0) and mutations predicted by one to four predictors (1<NDamage>4) 224

(Figure 2D). Even though there is a possibility that this last group can include real or 225

quasi-deleterious mutations, its trend is similar to the one observed for all neutral 226

mutations (NDamage<5 - Figure 2C). Also, mutations with NDamage=0 have higher 227

scores on smaller degrees. Clinical evidence is crucial in establishing relationships with 228

the predicted impact of a mutation (Schaefer et al. 2012). So, we plotted the normalized 229

distribution of a set of putative driver mutations (clinvar=5 - See methods) from the 230

ClinVar database cross-referenced with our deleterious mutations dataset (Figure 2F). A 231

similar trend to the more harmful mutation distribution (Figure 2B) with a higher number 232

of mutations in higher degrees was observed, which supports our initial hypothesis. The 233

(27)

strong general correlations to mutation occurrence (see Supplementary Figures 2 and 3), 235

though they can be useful to explain mutation effects in individual cases. 236

The conservation of non-covalent interactions of a residue plays an important role 237

to maintain protein structure (Kayikci et al. 2018) and is an essential factor in the 238

evaluation of the effects of a mutation. Vijayabaskar and Vishveshwara (2012) have 239

demonstrated that TIM barrels with low sequence similarity maintain highly similar 240

structures by the maintenance of these interactions. Therefore, mutations in highly 241

connected amino acids sites have a lower probability of retaining the interactions that 242

hold essential structural folds and increase the chances to give rise to deleterious 243

mutations with stronger effects on protein function. In this matter, RINs construction and 244

analysis can be an additional tool for the identification of the impact of new mutations 245

and therapeutic decision. 246

247

4 Conclusions

248

In the present study, we analyzed parameters of RINs to understand impacts of 249

cancer-associated mutations, and interesting patterns were found that can aid the 250

prediction of deleterious and possibly driver mutations. Our major findings were: (1) 251

Cancer-related mutations tend to be more frequent in less connected amino acids, and this 252

pattern is non-random. (2) Deleterious and neutral mutations show distinct patterns of 253

distribution concerning the nodes’ degree (amino acids). The former ones occur more 254

frequently in amino acids with higher degrees. This fact is probably associated with a 255

drastic effect in protein function. Therefore, the herein approach can aid in 256

assessment/prediction of the functional impact of a given mutation, especially if it is a 257 deleterious one. 258 259 260 5 Acknowledgements 261

The authors are indebted to the High-Performance Computing Center (NPAD) at 262

UFRN for the availability of computational resources and the Instituto Metropole Digital 263

(IMD) for the support in the realization of this work. We also wish to thank André L. F. 264

Faustino and Vandeclécio L. da Silva for the help in the initial filtering of COSMIC and 265 TCGA datasets. 266 267 6 Funding 268

This study was funded by the Coordenação de Aperfeiçoamento de Pessoal de 269

Nível Superior - Brasil (CAPES), Finance Code 001. JPMS Lima, JES Souza and SJ 270

Souza were supported by a grant (23038.004629/2014‐19) from CAPES. L.C. Florentino 271

was supported by a scholarship from CAPES. JPMS Lima also has financial support from 272

the Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq (grant 273

number: 447222/2014-7). 274

275

Conflict of Interest: none declared.

(28)

References

278

Bailey,M.H. et al. (2018) Comprehensive Characterization of Cancer Driver Genes and 279

Mutations. Cell, 173, 371–385.e18. 280

Bhattacharya,R. et al. (2017) Impact of genetic variation on three dimensional structure 281

and function of proteins. PLoS One, 12, e0171355. 282

Echave,J. et al. (2016) Causes of evolutionary rate variation among protein sites. Nat. Rev. 283

Genet., 17, 109–121.

284

Echave,J. and Wilke,C.O. (2017) Biophysical Models of Protein Evolution: Understanding 285

the Patterns of Evolutionary Sequence Divergence. Annu. Rev. Biophys., 46, 85– 286

103. 287

Fornasari,M.S. et al. (2007) Quaternary structure constraints on evolutionary sequence 288

divergence. Mol. Biol. Evol., 24, 349–351. 289

Gress,A. et al. (2017) Spatial distribution of disease-associated variants in three-290

dimensional structures of protein complexes. Oncogenesis, 6, e380. 291

Gao,J. et al. (2017) 3D clusters of somatic mutations in cancer reveal numerous rare 292

mutations as functional targets. Genome Med., 9, 4. 293

Holland,D.O. et al. (2017) Protein-protein binding selectivity and network topology 294

constrain global and local properties of interface binding networks. Sci. Rep., 7, 295

5631. 296

Jubb,H.C. et al. (2017) Mutations at protein-protein interfaces: Small changes over big 297

surfaces have large impacts on human health. Prog. Biophys. Mol. Biol., 128, 3–13. 298

Kayikci,M. et al. (2018) Visualization and analysis of non-covalent contacts using the 299

Protein Contacts Atlas. Nat. Struct. Mol. Biol., 25, 185–194. 300

Kucukkal,T.G. et al. (2015) Structural and physico-chemical effects of disease and non-301

disease nsSNPs on proteins. Curr. Opin. Struct. Biol., 32, 18–24. 302

Landrum,M.J. et al. (2016) ClinVar: public archive of interpretations of clinically 303

relevant variants. Nuclear Acids Res., 44, D862–D868. 304

Niu,B. et al. (2016) Protein-structure-guided discovery of functional mutations across 305

19 cancer types. Nat. Genet., 48, 827–837. 306

Petukh,M. et al. (2015) On human disease-causing amino acid variants: Statistical study of 307

sequence and structural patterns. Hum. Mutat., 36, 524–534. 308

Piovesan,D. et al. (2016) The RING 2.0 web server for high quality residue interaction 309

networks. Nucleic Acids Res., 44, W367-74. 310

Prlic,A. et al. (2016) Integrating genomic information with protein sequence and 3D 311

atomic level structure at the RCSB protein data bank. Bioinformatics, 32, 3833– 312

3835. 313

Putnam,C.D. et al. (2016) A Genetic Network That Suppresses Genome Rearrangements 314

in Saccharomyces Cerevisiae and Contains Defects in Cancers. Nature 315

Communications., 7,11256. 316

Schaefer,C. et al. (2012) Disease-related mutations predicted to impact protein function. 317

BMC Genomics, 13 Suppl 4, S11.

318

Sherry,S.T. et al. (2001) dbSNP: the NCBI database of genetic variation. Nucleic Acids 319

Res., 29, 308–311. 320

Stehr,H. et al. (2011) The structural impact of cancer-associated missense mutations in 321

oncogenes and tumor suppressors. Mol. Cancer, 10, 1–10. 322

Talavera,D. et al. (2010) The (non)malignancy of cancerous amino acidic substitutions. 323

Proteins Struct. Funct. Bioinforma., 78, 518–529.

324

The UniProt Consortium (2017) UniProt: the universal protein knowledgebase. Nucleic 325

Acids Res., 45, D158–D169. 326

(29)

Sequences resource. Nucleic Acids Res., 41, D483–D489. 328

Vijayabaskar,M.S. and Vishveshwara,S. (2012) Insights into the fold organization of 329

TIM barrel from interaction energy based structure networks. PLoS Comput. Biol., 330

8, e1002505.

331

Zhang,P. et al. (2017) A protein network descriptor server and its use in studying protein, 332

disease, metabolic and drug targeted networks. Brief. Bioinform., 18, 1057–1070. 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349

Referências

Documentos relacionados

Embora seja mais fácil de implementar e de alcançar um nível de qualidade de serviço através deste modelo descentralizado, a verdade é que não se consegue ter uma visão única

This work aimed to develop 3D nanofibrous scaffolds of PCL/chitosan blends, starting from electrospun membranes that were further modified through an innovative technique called

ideal estético como também uma retidão moral.” ( SOUZA, 2015, p. Acaba que se interioriza esse padrão como se fosse algo natural a se conquistar, e não uma característica

Sendo assim, entramos no conceito de cashless , (este é um sinónimo de transações eletrónicas), uma forma de pagamentos sem dinheiro vivo, feito através de cartões

Figura 4.2 – Curvas paramétricas que representam a variação da temperatura no compartimento de incêndio para diferentes áreas de um compartimento com fator de abertura de 0.10 m 0.5

Vários estudos têm avaliado a associação entre os efeitos dos poluentes emitidos na atmosfera com doenças relacionadas a outros órgãos e sistemas: cardiovascular,