LAISE CAVALCANTI FLORENTINO
Usando RINs para entender as mutações em câncer: mutações
deletérias são mais comumente associadas a aminoácidos
altamente conectados.
Natal RN 2018LAISE CAVALCANTI FLORENTINO
Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.
Dissertação apresentada ao Programa de Graduação em Bioinformática da Universidade Federal do Rio Grande do Norte como requisito para a obtenção do título de Mestre em Bioinformática.
Orientador: Prof. Dr. João Paulo Matos Santos Lima. Coorientador: Prof. Dr. Sandro José de Souza. Natal RN 2018
Florentino, Laise Cavalcanti.
Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados / Laise Cavalcanti Florentino. - Natal, 2019.
51 f.: il.
Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro Multiusuário de Bioinformática do Instituto Metrópole Digital (BioME). Programa de Pós-Graduação em Bioinformática.
Orientador: Prof. Dr. João Paulo Matos Santos Lima. Coorientador. Prof. Dr. Sandro José de Souza.
1. Efeito de mutações - Dissertação. 2. Redes de interação de resíduos Dissertação. 3. Mutações deletérias e neutras -Dissertação. I. Lima, João Paulo Matos Santos. II. Souza, Sandro José de. III. Universidade Federal do Rio Grande do Norte. IV. Título.
RN/UF/BSE-CB CDU 575.224.2
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Leopoldo Nelson - -Centro de Biociências - CB
Dedico ao meu avô Antônio, meu maior exemplo de sabedoria e humanidade.
AGRADECIMENTOS A minha família por todo apoio. À Cláudia pela paciência e companheirismo. Ao meu grande amigo Badel, sem ele essa jornada não teria acontecido. A todos do Biome, de onde vou levar muito aprendizado, maturidade e grandes amigos. ESTE TRABALHO FOI REALIZADO GRAÇAS AO AUXÍLIO DAS SEGUINTES INSTITUIÇÕES: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela concessão de bolsa de estudos e durante o período de agosto de 2016 até agosto de 2018, no âmbito do projeto Rede Biologia Sistêmica do Câncer (BSC), processo 23038.004629/2014‑19. Ao BioME pela concessão de espaço de trabalho e recursos computacionais. Ao NPAD pelos recursos computacionais de altaperformance. Ao Instituto Metrópole Digital (IMD) pelo suporte na realização do trabalho. Ao PPgBioinfo pela formação.
Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.
Autora: Laise Cavalcanti Florentino Orientador: João Paulo Matos Santos Lima RESUMO
Nas últimas décadas, avanços em pesquisas abordando o genoma completo levaram à identificação de um grande número de mutações relacionadas ao câncer. Obter um alto desempenho nas estimativas dos impactos de mutações em câncer na estrutura da proteína não é uma tarefa fácil, e a maioria dos estudos está limitada a análises de estruturas completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações deletérias. Assim, entender o impacto estrutural de uma mudança específica de aminoácido é de grande importância para as pesquisas oncológicas. Entretanto, a maioria dos estudos tem enfatizado sequências e modificações estruturais baseadas em características químicas de aminoácidos e não nas características de conformação, nas quais a conservação de interações nãocovalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense em câncer, a fim de inferir seus efeitos na conservação de interações nãocovalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas, recuperadas do Protein Data Bank (rcsb.org). Em seguida, as RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de aresta, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único
missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações, tendendo a permanecer em nós com menor conectividade. Também comparamos à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs). Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações nãocovalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer.
PalavrasChave: Redes de interação de Resíduos, Efeito de mutações, Mutações deletérias e neutras, Preditores.
Using RINs to understand cancer mutations: deleterious mutations
are more commonly associated to highly connected amino acids
Author: Laise Cavalcanti Florentino Adviser: João Paulo Matos Santos Lima ABSTRACT
In the last decades, advances in wholegenome sequencing research lead to the identification of a vast number of cancerrelated mutations. Achieving high performance in estimating the impacts of cancer mutations on protein structure is not an easy task, and most studies are limited to onebyone whole structural analysis. Moreover, there are still many challenges on the way to the precise and automated prediction of deleterious mutations. Therefore, understanding the structural impact of a particular amino acid change is hugely important for cancer medical research. However, most studies have been emphasizing sequences and structural modifications based on chemical characteristics of amino acids, not in fold features in which the conservation of noncovalent interactions play a significant role. Henceforth, in the present study, we used residue interaction networks (RINs) for largescale analysis of cancer missense mutations in order to infer their effects on the conservation of noncovalent interactions. We hypothesize that changes in highly connected amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov) databases and mapped them to their respective structures retrieved from Protein Data Bank (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and plotted using R scripts. Later, we compared these results against reported missense single nucleotide polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and nonpathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results demonstrate that the distribution of mutations per degree (node connectivity) varies significantly compared to random Monte Carlo simulations, tending to remain at nodes with lower connectivity. We also compare with the distribution of a set of human single nucleotide polymorphisms (SNPs). Besides, the proportion of deleterious mutations was significantly increased in nodes with a high degree of connectivity when two different criteria were used for their classification: proportions of software predictors (Ndamage) and clinical classification obtained from ClinVar. Considering these results, we can conclude that the changes in the highly connected amino acids are, in fact, more prone to generate deleterious mutations, due their higher proportion of occurrence in these nodes. Our results also indicate that the conservation of noncovalent interactions is an important parameter to consider in the evaluation of mutations effects and RINs analysis can be used as an additional parameter to aid in the prediction of deleterious mutations in cancer.
Keywords: Residue Interaction Networks, mutation effects, deleterious and neutral mutations, mutation predictors.
LISTA DE FIGURAS
Figura 1. A. Exemplo da estrutura tridimensional de uma proteína. B. A mesma proteína vista como uma rede de interação de resíduos, em que os nós são os resíduos e as arestas as interações entre eles... 14 Figura 2. Pipeline da mineração dos dados. A. Relacionamento entre os bancos de dados necessários e filtragens. B. Uso do RING para gerar as RINs e alinhamento de posições. C. Geração de banco de dados final e análises. …....……….….18 Figura 3. Resultados das médias das simulações de Monte Carlo em 100.000 rodadas (cinza) comparadas com a média das mutações (em vermelho), constante, apenas com objetivo referencial. No eixo x as rodadas da Monte Carlo e no eixo y as médias observadas………. 38 Figura 4. Distribuição da quantidade de resíduos (eixo y) em relação ao grau de conectividade (eixo x). A. Distribuição de todos os resíduos dos PDBs selecionados (mutações neutras em cor cinza médio, deletérias em cinza escuro e nós que não apresentaram mutações cinza claro). B. Distribuição apenas dos resíduos que apresentaram mutações, para melhor visualização. C. Distribuição da proporção de deletérias e neutras por grau de conectividade ( degree )... 39 Figura 5. Usando o Comp score A . Gráfico de linha comparando valores do Comp score por degree considerando NDamage=0
(cinza claro), 0<NDamage<5 (cinza médio) e NDamage>5 (cinza escuro) B. Distribuição do subconjunto de mutações incluindo apenas as neutras. C. Distribuição considerando apenas as mutações deletérias………...……….…….... 40 Figura 6. Gráfico contendo os valores das distribuição da quantidade de mutações por grau, ponderada pelo CompScore. Em azul todas as mutações, em vermelho o subconjunto de neutras e em verde o subconjunto das deletérias……….……... 41 Figura 7. Distribuição das mutações por grau de conectividade usando um score de normalização (compScore). A. Mutações. B. SNPs. C. Mutações deletérias do ClinVar que foram relacionadas com as mutações..……….….…… 42 Figura 8. Comparação de deletérias entre ClinVar (no quadro à esquerda neutras, à direita deletérias) e NDamage (azul neutras, laranja deletérias). No eixo x temos a quantidade de preditores em que a mutação foi considerada patogênica pelo NDamage sobre a quantidade de preditores utilizados, no eixo y a quantidade de mutações em cada caso….……….…….. 43 Figura 9. Posições relativas das mutações em relação aos PDBs ...……….…….….…….. 43 Figura 10. À esquerda a distribuição dos nós em relação à centralidade ( betweenness weighted ) considerando o NDamage para o preenchimento de cor, abaixo a proporção de deletérias e neutras. À direita a distribuição dos nós em relação ao coeficiente de agrupamento ( clustering coef. ) com preenchimento de cor baseado no NDamage e abaixo sua proporção de deletérias e neutras ……...………..….…….. 44 Figura 11. Distribuição do tipo de interações dos aminoácidos mutados. Proporção de deletérias (laranja) e neutras (azul) por tipo de interação………...………..………....…….... 45 Figura 12. Divisão dos aminoácidos por grupos químicos………..…….……… 47 Figura 13. A. Distribuição das mudanças de grupos químicos das mutações e abaixo a proporção de deletérias (laranja) e neutras (azul) para cada troca………..……….. 48 LISTA DE TABELAS Tabela 1 Preditores utilizados na definição do NDamage (tabela adaptada de LI, Q. et al., 2014)... 19 Tabela 2 Quantidade total, de proteínas, de PDBs e de mutações após cada filtro ou processo……….... 37
LISTA DE ABREVIATURAS RIN Residue Interaction Network ( Rede de Interação de Resíduos) RING Residue Interaction Network Generator ( Gerador de Rede de Interação de Resíduos ) PPI ProteinProtein Interaction network (Rede de interação proteínaproteína) SNP Single Nucleotide Polymorphism (Polimorfismo de Nucleotídeo Único) TCGA The Cancer Genome Atlas ( O Atlas do Genoma do Câncer)
COSMIC Catalogue Of Somatic Mutations In Cancer ( Catálogo de Mutações Somáticas no Câncer)
PDB Protein Data Bank ( Banco de Dados de Proteínas)
SIFTS Structure Integration with Function, Taxonomy and Sequence (Integração de Estrutura com Função, Taxonomia e Sequência)
SUMÁRIO 1. INTRODUÇÃO………..…………. 12 2. OBJETIVOS………..……….. 16 3. RESUMO DA ESTRATÉGIA EXPERIMENTAL ……….………...… 17 3.1 Obtenção e mineração dos dados………... 17 3.2 Dados usados para validação……… 18 3.3 Análises estatísticas e visualização dos dados……….. 20 4. ARTIGO……….……...….. 22 5. DISCUSSÃO E RESULTADOS ADICIONAIS ...…………...……….……... 37 6. CONCLUSÃO E PERSPECTIVAS ………..……….….……... 49 REFERÊNCIAS ...………...……. 50
1 INTRODUÇÃO
Compreender as consequências das mudanças nas sequências biológicas é de suma importância para as pesquisas biomédicas. Atualmente as variações no DNA são consideradas diferenças em comparação à sequência de referência do genoma humano , onde os polimorfismos de nucleotídeo único (SNPs) são detectáveis em mais de 1% da população, enquanto as mutações somáticas são as variações detectadas em menos de 1% (KARKI et al ., 2015).
Tais variações na sequência podem ser classificadas como missense em que a substituição do nucleotídeo resulta em um aminoácido diferente, silenciosas ( silent ) em que a troca do nucleotídeo gera um códon diferente porém o aminoácido não é alterado e sem sentido ( nonsense) em que a troca gera um códon de parada, finalizando a síntese proteica, geralmente antes do esperado.
Mutações em oncogenes, responsáveis pelo crescimento celular, e genes supressores de tumor, responsáveis pelo retardamento da divisão celular, podem levar a um crescimento desordenado das células, ocasionando tumores ou até mesmo câncer (WAKS et al ., 2016). A identificação dos genes condutores ( driver genes ), ou seja, daqueles que possuem vantagem seletiva no crescimento celular, é um dos principais desafios atuais nas pesquisas oncológicas (TOKHEIM, 2016). Existem vários métodos e ferramentas com esse objetivo mas ainda com falhas e muitas vezes discordantes entre si (BAILEY et al ., 2018).
O câncer é uma das principais causas de mortalidade no mundo e projeções mostram que as incidências tendem a aumentar consideravelmente nas próximas décadas. As causas podem ser tanto genéticas quanto ambientais/sóciocomportamentais, o que torna seu estudo algo não trivial. Assim, muitos esforços vêm sendo realizados para auxiliar na descoberta de métodos mais eficazes de prevenção e tratamento (MCDANIEL et al ., 2017; MILROY et al ., 2018) e a bioinformática vem sendo uma poderosa aliada nessa busca (OLIVER et al ., 2015).
Nas últimas décadas diversos bancos de dados públicos foram criados no intuito de unir informações em larga escala que possam ajudar nas pesquisas e análises relacionadas ao câncer. Alguns dos mais conhecidos são: The Cancer Genome Atlas (TCGA) (HUTTER e ZENKLUSEN, 2018), que fornece um atlas com alterações genômicas dos principais tipos de câncer; o Catalogue Of Somatic Mutations In Cancer (COSMIC) (TATE et al., 2018), que disponibiliza uma enorme variedade de dados de mutações somáticas; e o ClinVar ( LANDRUM et al., 2018 ), que contém variantes com associação clínica (PAVLOPOULOU et
al ., 2015; DUMUR, 2014).
Na tentativa de avaliar o impacto das mutações e identificar as deletérias, preditores (como SIFT, PolyPhen2, MutationTaster, FATHMM, entre outros) foram desenvolvidos utilizando diversos métodos ou até mesmo unindo diferentes algoritmos já existentes. Porém, apesar de serem muito úteis e bastante utilizados, ainda há a necessidade de novas descobertas e ajustes para que a exatidão dessas ferramentas possa ser melhorada (DONG et
al ., 2015), como a busca de novos parâmetros que ajudem na tomada de decisão quando houver contradição entre os preditores.
Os efeitos sequenciais e pontuais das mutações em câncer são bem conhecidos, porém com o crescente número de estruturas proteicas e as várias ferramentas disponibilizadas, os efeitos estruturais dessas mutações também vêm sendo cada vez mais explorados (NIU et al ., 2016). O Protein Data Bank (PDB) é o principal repositório de estruturas 3D (Fig. 2A) e tem sido de suma importância para esse avanço (BURLEY et al ., 2017). Uma forma eficiente de avaliar o impacto dessas mutações é analisando a estrutura completa da proteína utilizandose da modelagem molecular, por exemplo, o que não é algo trivial e ainda dificulta a análise em larga escala ( BHATTACHARYA et al. , 2017, GAO et al ., 2017; JUBB et al .,2017) .
A composição e dinâmica dos resíduos de uma proteína está intimamente ligada à sua função e entender o impacto de uma mutação na proteína vai muito além da simples troca de aminoácido. O quanto essa mudança vai interferir nas ligações com outros resíduos e, principalmente, estimar a importância do aminoácido na estrutura da proteína é de extrema importância para um melhor entendimento das consequências conformacionais (BRYSBAERT et al ., 2018).
As informações para a formação da estrutura estão contidas em sua sequência de aminoácidos (o Dogma de Anfinsen), mas apesar do grande tamanho de seqüência, o espaço de conformação da estrutura é bastante limitado. Dessa forma, sequências dissimilares podem dar origem a estruturas semelhantes. ( PANCSA et al., 2016 ). A conservação das interações químicas é a base da compreensão dos determinantes estruturais subjacentes dos folds proteicos, já que uma mutação pode ou não afetar um importante resíduo para a estabilidade da estrutura global de uma proteína.
Assim, uma forma extremamente eficaz de representação da estrutura de proteínas, mais focada na conservação das interações químicas entre os diferentes aminoácidos são as redes de interação de resíduos (RINs) (Figura 1). Utilizando essa abordagem é possível estimar a importância dos resíduos na proteína devido ao fato de termos a visão da proteína como um grafo, em que os nós são resíduos da proteína (principalmente aminoácidos) e as arestas são as interações físicoquímicas entre esses resíduos (interações iônicas, interações
, van der Waals, ligações de hidrogênio) (GREWAL et al ., 2015).
O RING 2.0 (Piovesan et al. , 2016) é uma ferramenta para construção de RINs relativamente recente e pode ser aplicada para a análise e previsão do impacto de polimorfismos e mutações. Nela basta fornecer um arquivo .pdb como entrada e o software tem como saída um arquivo com informações a respeito dos nós e das arestas daquela estrutura. Algumas informações geradas geradas são fator de temperatura ( Bfactor ), grau de conectividade do nó ( degree), tipos de interações químicas (intra e inter cadeias) entre os resíduos, distância, ângulo, etc.
Figura 1. A. Exemplo da estrutura tridimensional de uma proteína. B. A mesma proteína vista como uma rede de interação de resíduos, em que os nós são os resíduos e as arestas as interações entre eles
Outros parâmetros de grafos podem ser calculados a partir das informações fornecidas pelo RING e são informações valiosas para o entendimento da importância de um nó na rede. Entre eles estão o coeficiente de agrupamento ( clustering coefficient ), que mede a tendência dos nós se agruparem, baseado no grau de agrupamento dos nós vizinhos, e centralidade do nó ( betweenness weighted ), em que se considera a quantidade de menores caminhos que passam por aquele nó.
Levando essa abordagem de rede de interação de resíduos para as mutações em câncer, algumas questões podem ser levantadas:
Mutações relacionadas ao câncer e polimorfismos de nucleotídeo único (SNPs) exibem padrões semelhantes de ocorrência?
O que acontece se a modificação específica de AA mantiver a maior parte das interações não covalentes do resíduo original?
Há uma correlação entre essas mudanças e padrões de conservação de resíduos em mutações ou SNPs?
Além disso, já é bem conhecido que nas redes de interação proteínaproteína (PPI), as proteínas que apresentam um alto número de interações tendem a ter um menor número de substituições em sua sequência (Fraser et al. 2002; Holland et al., 2017). Devido a isso, as seguintes questões também foram levantadas:
Os mesmos princípios das PPIs se aplicam a resíduos altamente conectados em uma determinada proteína?
Os aminoácidos com baixo número de interações químicas são mais propensos a mutações?
As mutações deletérias estão mais associadas a sequências de aminoácidos altamente conectadas?
Para responder a essas questões, elaboramos uma abordagem para estabelecer relações entre mutações missense em câncer e parâmetros de rede em seus respectivos locais de sequência. Nossa hipótese é que as mudanças em aminoácidos com um maior número de conexões aumentam as chances de gerar mutações deletérias, o que tornaria os parâmetros das RINs uma informação complementar para previsão dessas mutações.
1.1 Justificativa
Muitos esforços têm sido feitos para uma identificação mais precisa das mutações que estão diretamente relacionadas ao desenvolvimento de determinado tipo de câncer, no entanto, ainda existem inúmeros desafios para tal tarefa (YI, S. et al., 2017). As ferramentas que prevêem o impacto das mutações desenvolvidas até o momento ainda não são suficientemente precisas, apresentando predições com resultados contrastantes. Percebese então, uma grande necessidade de buscar novas abordagens que possam melhorar esses algoritmos.
A forma que a proteína se estrutura está intimamente ligada à sua função, tornando de extrema importância entender como os aminoácidos estão ligados e como mutações vão impactar a estrutura proteica como um todo. As redes de interação entre resíduos (RINs) nos permitem justamente levar em consideração as ligações químicas secundárias que são essenciais para a manutenção da estrutura tridimensional da proteína.
Com esse tipo de visualização e a forma como seus dados são estruturados é possível utilizar uma abordagem em larga escala para o entendimento das propriedades dinâmicas e estruturais das proteínas. Além de permitir o cálculo de parâmetros de teoria dos grafos, sendo um adicional ao usar técnicas de análise de dados na busca de padrões ainda não observados ou comprovados.
Acreditamos que dados gerados pela análise das RINs possam indicar locais nas proteínas que são mais passíveis de sofrer mutações ou locais onde estas terão efeitos mais danosos. Com essas informações parâmetros adicionais podem ser utilizados para ajudar na predição de mutações deletérias diretamente associadas ao desenvolvimento do câncer.
2 OBJETIVOS
Objetivo geral
Mapear e encontrar relações entre mutações associadas ao câncer e dados gerados pelas redes de interação entre resíduos (RINs), com a finalidade de entender como essas mutações causam impacto na estrutura e função das proteínas.
Objetivos específicos
⬩ Relacionar as informações das RINs com as do banco de mutações em um banco único.
⬩ Realizar análises estatísticas para observar os padrões e correlações entre os dados obtidos.
⬩ Avaliar a importância da conservação de interações químicas entre aminoácidos.
⬩ Comparar os padrões encontrados para mutações relacionadas a câncer com os padrões encontrados em polimorfismo de nucleotídeo único (SNPs) e com dados clínicos do ClinVar.
3 RESUMO DA ESTRATÉGIA EXPERIMENTAL
3.1 Obtenção e mineração dos dados
Dados de mutações em câncer foram retirados dos bancos The Cancer Genome Atlas TCGA (TOMCZAK et al ., 2015) e Catalogue Of Somatic Mutations In Cancer COSMIC (FORBES et al ., 2015) e curados manualmente para um banco de dados relacional. Para predição do efeito de cada mutação, 9 diferentes preditores de impacto foram utilizados (TABELA 1). O escore NDamage resume esta informação, contendo o número de preditores nos quais a mutação foi classificada como deletéria (PUTNAM et al ., 2016). Essa variável foi imprescindível para as análises posteriores. Depois, apenas as mutações missense e que ocorriam em regiões codificantes foram filtradas.
O cruzamento das informações entre os registros do banco Uniprot e as estruturas tridimensionais de proteínas resolvidas presentes no banco PDB foram obtidas por meio do arquivo “pdbtosp.txt”, presente no site do UniProt (www.uniprot.org/docs/pdbtosp) e relacionadas com os dados de mutações. Nesse ponto filtramos também apenas os PDBs obtidos através da técnica de cristalografia de RaiosX e com resolução menor que 2.6 Å, para garantir uma boa qualidade da estrutura. Além disso foram consideradas apenas proteínas "selvagens" ( Wild Protein ).
Para mapear a posição de alguns PDBs com a correta posição na sequência UniProt, adicionamos ao banco informações do SIFTS (www.ebi.ac.uk/pdbe/docs/sifts). Além desse mapeamento foi necessária a criação de um procedimento para automatizar o alinhamento de posições das mutações com o registro de sequência do banco UniProt, que em alguns casos não era correspondente à posição obtida no arquivo PDB com as coordenadas estruturais. Para isso foi criado um algoritmo para resolver tais discrepâncias, utilizando uma estratégia de varredura ambilateral da sequência, “shift left” e “shift right”, a partir da posição média da mutação, buscando um alinhamento de pelo menos 80% dos aminoácidos (critério estabelecido devido às variações naturais das sequências). As posições remanescentes que não foram alinhadas ou que não tinham uma quantidade suficiente foram descartadas.
Para construção das redes de interação de resíduos (RINs) utilizamos o software RING 2.0 ( PIOVESAN et al. ,2016 ). Assim, todos os arquivos PDBs relacionados às mutações obtidas após os filtros foram obtidos a partir do Protein Data Bank ( www.rcbs.org ), para serem utilizados posteriormente como entrada. Criamos um script em Python para automatizar esse procedimento para cada um dos PDBs. A saída do software foram arquivos com informações de nós ( Nodes ) e de arestas ( Edges ) para cada PDB. Essas informações também foram adicionadas ao banco e relacionadas.
Além das informações obtidas com o RING 2.0 também calculamos, por meio dos arquivos de saída, outros parâmetros de grafos associados aos nós coeficiente de agrupamento e centralidade adicionando ao banco tais resultados.
O Coeficiente de clusterização mede o grau de agrupamento dos vizinhos de um nó, com resultado variando de 0 a 1, sendo 1 referente ao número máximo de conexões possível. Para o cálculo foi utilizada a seguinte fórmula:
N umber of triangles of node(i)
0.5 × Degree of node × (Degree of node + 1)(i) (i) ( 1)
Um triângulo ocorre quando dois vizinhos do nó interagem entre si, então sabendo o grau do nó e o número de triângulos através da função count_triangles do pacote igraph (http://igraph.org/) foi possível calcular tal parâmetro.
O betweenness weighted ( intermediação) mede a centralidade de um nó da rede com base no número de caminhos mais curtos que passam por ele. Foi calculado utilizando a distância entre os aminoácidos como peso da aresta e normalizando o resultado (variando entre 0 e 1). Esta métrica foi calculada com a função betweenness do pacote igraph.
Ao final do processo, como geralmente tínhamos mais de um PDB associado a uma mesma proteína, para evitar redundâncias selecionamos apenas um código PDB por mutação e isso foi feito selecionandoos por meio dos seguintes critérios: maior tamanho, melhor resolução e ordem alfabética, respectivamente (Figura 2). Figura 2. Pipeline da mineração dos dados. A. Relacionamento entre os bancos de dados necessários e filtragens. B. Uso do RING para gerar as RINs e alinhamento de posições. C. Geração de banco de dados final e análises.
3.2 Dados usados para validação
Estabelecemos o critério de classificação de mutações deletérias/neutras por meio do
NDamage, consideramos deletérias aquelas em que pelo menos cinco preditores classificaram como danosas e as demais consideramos neutras. Ao todo foram utilizados nove preditores descritos na Tabela 1:
Tabela 1 Preditores utilizados na definição do NDamage (tabela adaptada de LI, Q. et al., 2014)
Preditor Referência Estratégia
SIFT Predicting the effects of coding nonsynonymous variants on protein function using the SIFT algorithm. Kumar P, Henikoff S, Ng PC Nat Protoc. 2009; 4(7):107381. (http://sift.bii.astar.edu.sg/) Baseiase no grau de conservação de aminoácidos em alinhamentos derivados de sequências estreitamente relacionadas, coletadas através do PSIBLAST. Polyphen2 HDIV A method and server for predicting damaging missense mutations. Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR Nat Methods. 2010 Apr; 7(4):2489. (http://genetics.bwh.harvard.edu/pph2/) Utiliza o classificador Naive Bayes para predizer o impacto da substituição de aminoácidos. Baseiase tanto na sequência quanto na estrutura. HDIV identifica as mutações prejudiciais assumindo diferenças entre proteínas humanas e os seus homólogos de mamífero intimamente relacionados como nãoprejudiciais. Polyphen2 HVAR A method and server for predicting damaging missense mutations. Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR Nat Methods. 2010 Apr; 7(4):2489. (http://genetics.bwh.harvard.edu/pph2/) Utiliza o classificador Naive Bayes para predizer o impacto da substituição de aminoácidos. Baseiase tanto na sequência quanto na estrutura. O HVAR identifica mutações causadoras de doenças humanas, assumindo que os nsSNPs humanos comuns são nãoprejudiciais. MutationAssessor Predicting the functional impact of protein mutations: application to cancer genomics. Reva B, Antipin Y, Sander C Nucleic Acids Res. 2011 Sep 1; 39(17):e118. (http://mutationassessor.org/r3/) Prevê o impacto funcional das substituições de aminoácidos baseado na conservação evolucionária do aminoácido afetado em proteínas homólogas. MutationTaster MutationTaster evaluates
sequence alterations. Schwarz JM, Rödelsperger C, Schuelke M, Seelow D Nat Methods. 2010 Aug; 7(8):5756. (http://www.mutationtaster.org/) doenças da alterações na sequência de DNA. Integra informações de conservação evolutiva, alterações no sítio de splicing, perda de características protéicas e alterações que podem afetar a quantidade de mRNA de diferentes bases de dados biomédicos e utiliza ferramentas de análise estabelecidas. LR Agresti A. (2002) Categorical Data Analysis. WileyInterscience, New York. Abordagem baseada em agrupamento que integra múltiplos sistemas de score (de predição de função e conservação) por meio de regressão logística. LRT Identification of deleterious mutations within three human genomes. Chun S, Fay JC Genome Res. 2009 Sep; 19(9):155361. (http://www.genetics.wustl.edu/jflab/lrt_ query.html) Identifica posições conservadas de aminoácidos e mutações deletérias usando um conjunto de dados genômicos comparativos de múltiplas espécies de vertebrados. RadialSVM Corinna Cortes V.V. (1995) Supportvector networks. Mach. Learn., 20, 273–297 Abordagem baseada em agrupamento que integra vários sistemas de score(de predição de função e conservação) por meio de máquina de suporte vetorial radial. FATHMM Predicting the functional consequences of cancerassociated amino acid substitutions. Shihab HA, Gough J, Cooper DN, Day IN, Gaunt TR Bioinformatics. 2013 Jun 15; 29(12):150410. (http://fathmm.biocompute.org.uk/) Análise funcional através de modelos ocultos de Markov. Prevê as conseqüências funcionais de substituições de aminoácidos associadas ao câncer usando um modelo ponderado para mutações de doenças hereditárias.
Para verificar a precisão do nosso critério obtemos dados do ClinVar ( LANDRUM et al., 2018) e as mutações comuns aos dois bancos foram salvas à parte para análise e comparação. As mutações com significância clínica identificada como benigna ou provavelmente benigna consideramos neutras, e as com significância clínica identificada como patogênica ou possivelmente patogênica consideramos deletérias.
Utilizamos, ainda, o banco dbSNP (SHERRY et al., 2001), que foi inserido em um banco de dados separado onde foi realizado um procedimento semelhante ao aplicado no banco de mutações (relacionamento com PDB, alinhamento, relacionamento com parâmetros das RINs). Com isso pôdese comparar as diferenças nos padrões das mutações em câncer com os padrões que ocorrem nos SNPs.
3.3 Análises estatísticas e visualização dos dados Ao final, os arquivos gerados foram:
⬩ Mutations_Nodes.csv , contendo os dados de mutações após todos os filtros e relacionamentos realizados na etapa de mineração.
⬩ NodesAll.csv , contendo informações de todos os nós de todos os PDBs humanos, wild type , obtidos com raiox e resolução < 2.6 Å
⬩ NodesSelected.csv, contendo um subconjunto do arquivo acima, com todos os nós mas apenas dos PDBs relacionados à tabela final de mutações.
⬩ Clinvar_Mutations.csv , contendo os dados de mutações do ClinVar que foram relacionados com a tabela final de mutações.
⬩ SNP_Nodes.csv , contendo os dados do banco dbSNP relacionados à PDBs e parâmetros das RINs.
Para comparar resultados e comprovar padrões de distribuições realizamos simulações de Monte Carlo, em que a mesma quantidade de nós mutados foi sorteada aleatoriamente do conjunto total de nós dos PDBs utilizados ( NodesSelected ) por 100.000 vezes. O teste de Wilcoxon também foi realizado para a comparação das médias das distribuições não paramétricas.
Um escore de normalização (Comp score ) (Equação 1) foi formulado para termos uma melhor visualização da distribuição dos nós mutados em relação ao seu grau de conectividade. O escore leva em conta não só a quantidade de mutações por grau de conectividade do nó , mas também compara com o total de nós (mutados ou não) naquele grau, ponderando a distribuição. 4 ARTIGO submetido
are more commonly associated with highly connected amino
2acids
3Laise C. Florentino1,2, Diego A. A. Morais1,2, Diego G. Teixeira2,3, Rodrigo J. S. Dalmolin2,3, 4
Jorge E. S. Souza2, Sandro J. de Souza2,4 and João Paulo M. S. Lima2,3* 5
6
1 - Programa de Pós-Graduação em Bioinformática (PPg-Bioinfo), Instituto Metrópole 7
Digital (IMD), Universidade Federal do Rio Grande do Norte (UFRN), Natal, RN, Brazil, 8
2 - Bioinformatics Multidisciplinary Environment (BioME), IMD, UFRN, Natal, RN, 9
Brazil, 10
3 - Department of Biochemistry, UFRN, Natal, RN, Brazil; Institute of Tropical Medicine 11
of Rio Grande do Norte (IMT-RN), Natal, Rio Grande do Norte, Brazil, 12
4 - Brain Institute, UFRN, Natal, Brazil. 13
Abstract
14
Many efforts to identify cancer-associated mutations have been made, most at the 15
sequence level. The understanding of the structural impact of a given amino acid change 16
is of major importance to cancer medical research. In the present study, we used residue 17
interaction networks (RINs) for large-scale analysis of cancer missense mutations to infer 18
their respective structural effects. We hypothesize that changes in highly connected 19
amino acids are more likely to give rise to deleterious mutations with more drastic 20
structural effects. For this, we analyzed several network parameters from RINs to 21
establish which ones are more common in sequence sites (nodes) with an occurrence of 22
reported missense cancer mutations. Our results demonstrate that the distribution of 23
somatic mutations per degree (node connectivity) varies significantly compared to the 24
distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain 25
at nodes with lower connectivity. Besides, the proportion of deleterious mutations was 26
significantly increased in nodes with a high degree of connectivity when two different 27
criteria were used for their classification: prediction as deleterious in at least five out nine 28
software predictors and clinical classification obtained from ClinVar database. Taking 29
into account these results, we can conclude that the changes in the highly connected 30
amino acids are indeed more likely to generate deleterious mutations, due to their higher 31
proportion of occurrence in these nodes. RINs can be used as an additional parameter to 32
aid in the prediction of the impact of cancer mutations. 33
34
1 Introduction
35
Deleterious mutations are those that have stronger phenotypic consequences, making 36
their prediction essential for cancer research. Since not all predicted deleterious missense 37
mutations are disease-causing, there are still many challenges on the way to their precise 38
and automated identification (Stehr et al. 2011), especially the ones that can give rise to 39
driver mutations. For long, researchers have been studying methods to discriminate these 40
mutations from harmless variants (Petukh et al., 2015). Although several tools are 41
available to perform this task, there are still limitations, and it is common to obtain 42
different conclusions from their results (Gress et al., 2017; Bailey et al., 2018). 43
One effective way to study the structural impacts and effects caused by cancer-44
associated mutations is a whole protein structure analysis (Gao et al., 2017). Recently, 45
with the growing number of protein structures and the variety of tools available for their 46
exploration, efforts in this sense have been increased (Niu et al., 2016). This approach 47
constraints, consequences from a given change (Jubb et al., 2017). Other studies have 49
emphasized sequence-based phylogenetic information, structural modifications based on 50
chemical characteristics of amino acid side chains, as well as functional, physicochemical 51
and biophysical features (Petukh et al. 2015; Echave et al. 2017). However, this is not a 52
straightforward task, since it requires full structure assessment and modeling techniques, 53
especially when applied to multiple proteins or multiple mutations in the same protein 54
(Bhattacharya et al. 2017). 55
One way that disease-causing missense mutations exert their effects is by 56
alterations of important amino acid residue properties (Gress et al., 2017). The 57
identification of essential residues to protein structure and function can also be inferred 58
by their degree of connectivity through chemical noncovalent interactions with other 59
amino acids or ligands since the conservation of these interactions plays a significant role 60
on structure conservation and consequently protein function (Fornasari et al., 2007; 61
Kucukkal et al., 2015). This information can be easily assessed by the construction of 62
residue interaction networks (RINs) from a given structure (a pdb file). In a RIN, each 63
amino acid is treated as a node and its connections as edges (Piovesan et al., 2016). This 64
kind of representation improves data handling and accelerate the analysis of the functional 65
impact of several mutations. 66
A network approach to understanding the structural and functional impacts of 67
cancer mutations raises some interesting questions. Amino acids with a low number of 68
chemical interactions are more prone to mutations? Are deleterious mutations associated 69
with highly connected amino acid sequence sites? Do cancer mutations and single 70
nucleotide polymorphisms (SNPs) display similar patterns of occurrence? To answer 71
these questions, we devised an approach to establish relationships between missense 72
mutations from sixteen cancer types to network parameters of their respective sequence 73
sites. We show that changes in highly connected nodes are more significantly associated 74
with deleterious mutations. Furthermore, our data shows the utility of RINs as an effective 75
way to predict the functional impact of mutations in proteins. 76
77
2 Methods
78
2.1 Data retrieving and dataset formatting 79
Datasets of cancer mutations were retrieved from The Cancer Genome Atlas 80
(TCGA) and Catalogue Of Somatic Mutations In Cancer (COSMIC) up to 2016 and 81
filtered to select only missense mutations occurring in coding regions. Data were merged 82
and manually curated in an SQL database to relate all necessary data for the analysis 83
(Supplementary Table S1). One of the columns added was the Ndamage, a score 84
containing the number of prediction tests that predict a mutation as deleterious (Putnam 85
et al., 2016). Using this score, we considered a deleterious mutation when at least five 86
predictors (out of 9) predict them as so. Supplementary Table S2 lists all the predictors 87
used in this study. 88
Tridimensional protein structures information for these genes were obtained using 89
cross-reference between uniprot_kb to PDB codes listed in the pdbtosp.txt file, obtained 90
from UniProt (The UniProt Consortium, 2017). Additional filtering was applied to 91
complete the pdb dataset for later analysis: wild-type proteins (percent coverage of 92
UniProt sequence ≥ 95%) with structures obtained by X-ray method and with resolution 93
<2.6 Å. Then, the remaining pdb codes were associated with the mutation table. 94
From the above database, the position of each cancer mutation was mapped to the 96
respective UniProt record. To assign to the correct residue position in the pdb, we used 97
SIFTS (Velankar et al., 2013). However, in some PDB files, the changed amino acid did 98
not match to the same position in the UniProt sequence record (Prlic et al., 2016). To 99
correct these unpaired sites, we created an alignment algorithm to ensure that at least 90% 100
of amino acids in distinct positions for each UniProt sequence (due to natural variants) 101
were aligned (Supplementary File 1). Mutations that could not be mapped were discarded 102
(those not having enough mutations by UniProt to give certainty of a correct mapping or 103
when returned alignments were worse than the established threshold). To avoid 104
redundancies, we used just one pdb file associated with the same uniprot_id and mutation 105
position, sorted by broader sequence coverage, better resolution, and alphabetical order, 106
respectively. Thus, PDB files encompassing the maximum number of positions were 107
chosen and downloaded from the RCSB PDB website (rcsb.org). 108
Residue interaction networks were constructed using RING 2.0 software 109
(Piovesan et al., 2016) which generated nodes.txt and edges.txt files for each PDB. We 110
merged these results into our database as an attribute in the main table using a custom 111
python script. From edges.txt output file, graph parameters like clustering coefficient and 112
weighted betweenness centrality were calculated for each node and also added to our 113
database. To calculate the clustering coefficient without going through all the network, 114
we used the following equation: 115
116
In this case, a triangle occurs when two neighbors of a Node(i) interact with each 117
other. Therefore, we counted the number of triangles using the function count_triangles 118
of the R package igraph (http://igraph.org/). Through the equation (1), the estimated 119
clustering coefficient ranges from 0 to 1, where 1 is the maximum possible number of 120
connections. Note that, if a given node has only two neighbors and they form a triangle, 121
the clustering coefficient is equal to 1. The parameter of betweenness centrality computes 122
node centrality concerning the number of shorter pathways that pass through it (Zhang et 123
al. 2016). Using RING2.0 files, we normalized the betweenness centrality utilizing the 124
distance between each amino acid (edges) as weight and calculated it using the 125
betweenness function of igraph. The results range from 0 to 1; thus a value of 0.1 means 126
that 10% of the shortest pathways of the network pass through that node. 127
128
2.3 Comparisons with SNPs and ClinVar data
129
We also performed a network parameters analysis in sequence sites with reported 130
occurrence of SNPs. For this, we used data from the Database for Short Genetic 131
Variations (dbSNP) (Sherry et al., 2001) to compare with the parameters trends observed 132
from the cancer mutation dataset. Only SNPs in uniprot_id and PDBs previously selected 133
were analyzed, using the methodology mentioned above. Also, we cross-referenced our 134
database to mutations listed in ClinVar database (Landrum et al., 2016) to verify if the 135
use of NDamage is indeed a reasonable criterion to predict the possibility of a given 136
mutation being deleterious. For this, we retrieved all mutations from ClinVar and 137
performed annotations with SnpEff/SnpSIFT, considering only non-synonymous 138
mutations. Then, we grouped ClinVar mutations identified as “benign” (2-non-139
“likely pathogenic” (4-probable pathogenic) or “pathogenic” (5-pathogenic) 141
(Supplementary Table S3), in two higher categories, neutral (clinvar=2) and deleterious 142
(clinvar=5), respectively. The same RINs parameters for these mutations were also 143
calculated for comparison and validation. 144
2.4 Statistical Analyses and data visualization
145
At the end of the data mining process, 4 csv files were generated and loaded as 146
data frame in R: The primary database (MutatedNodesEdgesGraph); all nodes from 147
selected PDBs, including the ones that were not targeted for the observed mutations, and 148
their respective network parameters (AllNodes); mutations that were classified as 149
pathogenic in Clinvar (MutationsClinvar); and dbSNP filtered by the selected Uniprots 150
(SNPs). 151
A normalization score (CompScore) was formulated to have a better visualization of
152
the distribution of mutated nodes by degree, considering not only the number of mutations 153
per degree alone but also comparing the total of nodes with that degree. Thus, if there is 154
a small number of nodes with given connectivity (degree) considering all nodes, a 155
mutated node in that degree will have a higher weight, since its lower probability of 156
occurrence. The following equation calculates Comp-Score: 157
158
Monte Carlo Simulations were performed to compare the obtained results to a 159
purely probabilistically distribution. For this, the same number of mutated nodes were 160
randomly drawn (taking into consideration that different mutations can occur in the same 161
node), from the total group of nodes (AllNodes), for 100.000 times. Only nodes related to 162
amino acids positions were considered. Wilcoxon's test assessed significant differences 163
from parameters distributions of MutatedNodes and AllNodes. 164
165
3 Results and discussion
166
Structural constraints are long known to influence amino acid variation among 167
protein sites (Echave et al. 2016). It is conceivable that a given mutation can have a 168
destabilizing effect in the protein, but not all local changes will have impacts on the 169
function (Kucukkal et al. 2015). Using RINs, we can analyze both local and global 170
changes induced by mutations, since the effect on the conservation of all non-covalent 171
interactions can be assessed. Therefore, to answer one of our first questions, if mutations 172
in amino acids with a higher number of non-covalent interactions are more likely to be 173
deleterious, we first focused the analysis in the distribution of node degree. 174
From our initial gene set of 7,423 genes with reported cancer-associated 175
mutations, a total of 17,196 mutations in 466 genes and 462 UniProt records were 176
matched to experimentally resolved protein structures (PDB) within our inclusion criteria. 177
After RIN construction for each one of these PDBs, we first analyzed non-edges 178
parameters. We observed a significant difference between the mean from the distribution 179
of degrees from all nodes (of selected PDBs), independently if they are mutated or not, 180
and the one from the distribution of mutations in nodes where at least one mutation was 181
mapped (p<2.2×10-16; Wilcoxon test) (Figure 1A). Considering our criteria to differentiate 182
deleterious and neutral mutations (using the parameter NDamage - see Methods section), 183
different (p<2.2×10 ; Figure 1B) and the proportion of deleterious mutations 185
(NDamage>5) is positively associated with the degree, i. e. the connectivity of a given 186
protein site (Figure 1C). These findings corroborate previous conclusions that the pattern 187
of amino acid substitution for a given sequence site depends on its interactions with other 188
residues (Fornasari et al. 2007). 189
To verify if the pattern of mutation distribution across the nodes is non-random, 190
100.000 rounds of Monte Carlo random simulations were performed. From this 191
randomized dataset, it was observed that the mean of their degrees' distribution remained 192
approximately 4.741, whereas the one from real reported mutations was 4.577 193
(p=1.301×10-13). Moreover, there is no significant difference between the mean of
194
simulations and the one obtained from all nodes (p=0.996) of the studied PDB dataset. 195
Taking into account the above results, we can conclude that there is a negative association 196
between residue degree and deleterious mutations. Gress et al. (2017) showed similar 197
results, where non-synonymous single nucleotide variants (nsSNVs) associated with 198
diseases were enriched in protein-ligand and protein-DNA contacts when compared to 199
random datasets. In fact, similar trends are also observed in other reports based on 200
biological network approaches, for example in protein-protein interactions (PPI), where 201
proteins with a higher number of interactions tend to present a lower number of 202
substitutions in their sequence (Holland et al., 2017). 203
Even though significant differences were found between randomized data and our 204
mutation dataset, the vast majority of the nodes from protein structures still have small 205
degrees values, ranging from 1 to 10. Therefore, to have a better evaluation of the 206
distributions trend, a normalized score (CompScore - see Methods section) was created 207
to take into consideration the low probability of a mutation occurring in less represented 208
nodes. By applying this score, a more striking difference is observed in the patterns of 209
degree distribution between deleterious and neutral mutations, as can be evidenced in 210
Figure 2. Deleterious mutations show increases in the weighted frequency until the degree 211
value of 11 (Figure 2B) whereas neutral mutations occurrence decreases linearly as the 212
degree value increases (Figure 2C). Considering the weighted distribution from both 213
types of mutations (Figure 2A), a similar trend to the one observed in a dataset with 214
251,284 non-synonymous SNPs (Figure 2E and Supplementary Figure 1) is observed. 215
Talavera et al. (2010) also reported that in general, patterns of cancer-associated 216
mutations and polymorphisms are indeed very similar. However, this absence of variation 217
does not sustain after separation of the neutral and deleterious mutations, similarly as 218
previously observed in mutations of tumor suppressors genes and oncogenes, which also 219
present opposing trends of occurrence in protein surfaces, functional sites and stability 220
(Stehr et al. 2011). 221
To verify if our classification criterion is adequate, we also analyzed and 222
compared the normalized distribution of mutations predicted as neutral by all predictors 223
(NDamage=0) and mutations predicted by one to four predictors (1<NDamage>4) 224
(Figure 2D). Even though there is a possibility that this last group can include real or 225
quasi-deleterious mutations, its trend is similar to the one observed for all neutral 226
mutations (NDamage<5 - Figure 2C). Also, mutations with NDamage=0 have higher 227
scores on smaller degrees. Clinical evidence is crucial in establishing relationships with 228
the predicted impact of a mutation (Schaefer et al. 2012). So, we plotted the normalized 229
distribution of a set of putative driver mutations (clinvar=5 - See methods) from the 230
ClinVar database cross-referenced with our deleterious mutations dataset (Figure 2F). A 231
similar trend to the more harmful mutation distribution (Figure 2B) with a higher number 232
of mutations in higher degrees was observed, which supports our initial hypothesis. The 233
strong general correlations to mutation occurrence (see Supplementary Figures 2 and 3), 235
though they can be useful to explain mutation effects in individual cases. 236
The conservation of non-covalent interactions of a residue plays an important role 237
to maintain protein structure (Kayikci et al. 2018) and is an essential factor in the 238
evaluation of the effects of a mutation. Vijayabaskar and Vishveshwara (2012) have 239
demonstrated that TIM barrels with low sequence similarity maintain highly similar 240
structures by the maintenance of these interactions. Therefore, mutations in highly 241
connected amino acids sites have a lower probability of retaining the interactions that 242
hold essential structural folds and increase the chances to give rise to deleterious 243
mutations with stronger effects on protein function. In this matter, RINs construction and 244
analysis can be an additional tool for the identification of the impact of new mutations 245
and therapeutic decision. 246
247
4 Conclusions
248
In the present study, we analyzed parameters of RINs to understand impacts of 249
cancer-associated mutations, and interesting patterns were found that can aid the 250
prediction of deleterious and possibly driver mutations. Our major findings were: (1) 251
Cancer-related mutations tend to be more frequent in less connected amino acids, and this 252
pattern is non-random. (2) Deleterious and neutral mutations show distinct patterns of 253
distribution concerning the nodes’ degree (amino acids). The former ones occur more 254
frequently in amino acids with higher degrees. This fact is probably associated with a 255
drastic effect in protein function. Therefore, the herein approach can aid in 256
assessment/prediction of the functional impact of a given mutation, especially if it is a 257 deleterious one. 258 259 260 5 Acknowledgements 261
The authors are indebted to the High-Performance Computing Center (NPAD) at 262
UFRN for the availability of computational resources and the Instituto Metropole Digital 263
(IMD) for the support in the realization of this work. We also wish to thank André L. F. 264
Faustino and Vandeclécio L. da Silva for the help in the initial filtering of COSMIC and 265 TCGA datasets. 266 267 6 Funding 268
This study was funded by the Coordenação de Aperfeiçoamento de Pessoal de 269
Nível Superior - Brasil (CAPES), Finance Code 001. JPMS Lima, JES Souza and SJ 270
Souza were supported by a grant (23038.004629/2014‐19) from CAPES. L.C. Florentino 271
was supported by a scholarship from CAPES. JPMS Lima also has financial support from 272
the Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq (grant 273
number: 447222/2014-7). 274
275
Conflict of Interest: none declared.
References
278
Bailey,M.H. et al. (2018) Comprehensive Characterization of Cancer Driver Genes and 279
Mutations. Cell, 173, 371–385.e18. 280
Bhattacharya,R. et al. (2017) Impact of genetic variation on three dimensional structure 281
and function of proteins. PLoS One, 12, e0171355. 282
Echave,J. et al. (2016) Causes of evolutionary rate variation among protein sites. Nat. Rev. 283
Genet., 17, 109–121.
284
Echave,J. and Wilke,C.O. (2017) Biophysical Models of Protein Evolution: Understanding 285
the Patterns of Evolutionary Sequence Divergence. Annu. Rev. Biophys., 46, 85– 286
103. 287
Fornasari,M.S. et al. (2007) Quaternary structure constraints on evolutionary sequence 288
divergence. Mol. Biol. Evol., 24, 349–351. 289
Gress,A. et al. (2017) Spatial distribution of disease-associated variants in three-290
dimensional structures of protein complexes. Oncogenesis, 6, e380. 291
Gao,J. et al. (2017) 3D clusters of somatic mutations in cancer reveal numerous rare 292
mutations as functional targets. Genome Med., 9, 4. 293
Holland,D.O. et al. (2017) Protein-protein binding selectivity and network topology 294
constrain global and local properties of interface binding networks. Sci. Rep., 7, 295
5631. 296
Jubb,H.C. et al. (2017) Mutations at protein-protein interfaces: Small changes over big 297
surfaces have large impacts on human health. Prog. Biophys. Mol. Biol., 128, 3–13. 298
Kayikci,M. et al. (2018) Visualization and analysis of non-covalent contacts using the 299
Protein Contacts Atlas. Nat. Struct. Mol. Biol., 25, 185–194. 300
Kucukkal,T.G. et al. (2015) Structural and physico-chemical effects of disease and non-301
disease nsSNPs on proteins. Curr. Opin. Struct. Biol., 32, 18–24. 302
Landrum,M.J. et al. (2016) ClinVar: public archive of interpretations of clinically 303
relevant variants. Nuclear Acids Res., 44, D862–D868. 304
Niu,B. et al. (2016) Protein-structure-guided discovery of functional mutations across 305
19 cancer types. Nat. Genet., 48, 827–837. 306
Petukh,M. et al. (2015) On human disease-causing amino acid variants: Statistical study of 307
sequence and structural patterns. Hum. Mutat., 36, 524–534. 308
Piovesan,D. et al. (2016) The RING 2.0 web server for high quality residue interaction 309
networks. Nucleic Acids Res., 44, W367-74. 310
Prlic,A. et al. (2016) Integrating genomic information with protein sequence and 3D 311
atomic level structure at the RCSB protein data bank. Bioinformatics, 32, 3833– 312
3835. 313
Putnam,C.D. et al. (2016) A Genetic Network That Suppresses Genome Rearrangements 314
in Saccharomyces Cerevisiae and Contains Defects in Cancers. Nature 315
Communications., 7,11256. 316
Schaefer,C. et al. (2012) Disease-related mutations predicted to impact protein function. 317
BMC Genomics, 13 Suppl 4, S11.
318
Sherry,S.T. et al. (2001) dbSNP: the NCBI database of genetic variation. Nucleic Acids 319
Res., 29, 308–311. 320
Stehr,H. et al. (2011) The structural impact of cancer-associated missense mutations in 321
oncogenes and tumor suppressors. Mol. Cancer, 10, 1–10. 322
Talavera,D. et al. (2010) The (non)malignancy of cancerous amino acidic substitutions. 323
Proteins Struct. Funct. Bioinforma., 78, 518–529.
324
The UniProt Consortium (2017) UniProt: the universal protein knowledgebase. Nucleic 325
Acids Res., 45, D158–D169. 326
Sequences resource. Nucleic Acids Res., 41, D483–D489. 328
Vijayabaskar,M.S. and Vishveshwara,S. (2012) Insights into the fold organization of 329
TIM barrel from interaction energy based structure networks. PLoS Comput. Biol., 330
8, e1002505.
331
Zhang,P. et al. (2017) A protein network descriptor server and its use in studying protein, 332
disease, metabolic and drug targeted networks. Brief. Bioinform., 18, 1057–1070. 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349