Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados

(1)

LAISE CAVALCANTI FLORENTINO

Usando RINs para entender as mutações em câncer: mutações

deletérias são mais comumente associadas a aminoácidos

altamente conectados.

Natal RN 2018

(2)

LAISE CAVALCANTI FLORENTINO

Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.

Dissertação apresentada ao Programa de Graduação em Bioinformática da Universidade Federal do Rio Grande do Norte como requisito para a obtenção do título de Mestre em Bioinformática.

Orientador: Prof. Dr. João Paulo Matos Santos Lima. Coorientador: Prof. Dr. Sandro José de Souza. Natal RN 2018

(3)

Florentino, Laise Cavalcanti.

Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados / Laise Cavalcanti Florentino. - Natal, 2019.

51 f.: il.

Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro Multiusuário de Bioinformática do Instituto Metrópole Digital (BioME). Programa de Pós-Graduação em Bioinformática.

Orientador: Prof. Dr. João Paulo Matos Santos Lima. Coorientador. Prof. Dr. Sandro José de Souza.

1. Efeito de mutações - Dissertação. 2. Redes de interação de resíduos Dissertação. 3. Mutações deletérias e neutras -Dissertação. I. Lima, João Paulo Matos Santos. II. Souza, Sandro José de. III. Universidade Federal do Rio Grande do Norte. IV. Título.

RN/UF/BSE-CB CDU 575.224.2

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Leopoldo Nelson - -Centro de Biociências - CB

(4)

(5)

Dedico ao meu avô Antônio, meu maior exemplo de sabedoria e humanidade.

(6)

AGRADECIMENTOS A minha família por todo apoio. À Cláudia pela paciência e companheirismo. Ao meu grande amigo Badel, sem ele essa jornada não teria acontecido. A todos do Biome, de onde vou levar muito aprendizado, maturidade e grandes amigos. ESTE TRABALHO FOI REALIZADO GRAÇAS AO AUXÍLIO DAS SEGUINTES INSTITUIÇÕES: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela concessão de bolsa de estudos e durante o período de agosto de 2016 até agosto de 2018, no âmbito do projeto Rede Biologia Sistêmica do Câncer (BSC), processo 23038.004629/2014‑19. Ao BioME pela concessão de espaço de trabalho e recursos computacionais. Ao NPAD pelos recursos computacionais de altaperformance. Ao Instituto Metrópole Digital (IMD) pelo suporte na realização do trabalho. Ao PPgBioinfo pela formação.

(7)

Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.

Autora: Laise Cavalcanti Florentino Orientador: João Paulo Matos Santos Lima RESUMO

Nas últimas décadas, avanços em pesquisas abordando o genoma completo levaram à identificação de um grande número de mutações relacionadas ao câncer. Obter um alto desempenho nas estimativas dos impactos de mutações em câncer na estrutura da proteína não é uma tarefa fácil, e a maioria dos estudos está limitada a análises de estruturas completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações deletérias. Assim, entender o impacto estrutural de uma mudança específica de aminoácido é de grande importância para as pesquisas oncológicas. Entretanto, a maioria dos estudos tem enfatizado sequências e modificações estruturais baseadas em características químicas de aminoácidos e não nas características de conformação, nas quais a conservação de interações nãocovalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense em câncer, a fim de inferir seus efeitos na conservação de interações nãocovalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas, recuperadas do Protein Data Bank (rcsb.org). Em seguida, as RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de aresta, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único

missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações, tendendo a permanecer em nós com menor conectividade. Também comparamos à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs). Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações nãocovalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer.

PalavrasChave: Redes de interação de Resíduos, Efeito de mutações, Mutações deletérias e neutras, Preditores.

(8)

Using RINs to understand cancer mutations: deleterious mutations

are more commonly associated to highly connected amino acids

Author: Laise Cavalcanti Florentino Adviser: João Paulo Matos Santos Lima ABSTRACT

In the last decades, advances in wholegenome sequencing research lead to the identification of a vast number of cancerrelated mutations. Achieving high performance in estimating the impacts of cancer mutations on protein structure is not an easy task, and most studies are limited to onebyone whole structural analysis. Moreover, there are still many challenges on the way to the precise and automated prediction of deleterious mutations. Therefore, understanding the structural impact of a particular amino acid change is hugely important for cancer medical research. However, most studies have been emphasizing sequences and structural modifications based on chemical characteristics of amino acids, not in fold features in which the conservation of noncovalent interactions play a significant role. Henceforth, in the present study, we used residue interaction networks (RINs) for largescale analysis of cancer missense mutations in order to infer their effects on the conservation of noncovalent interactions. We hypothesize that changes in highly connected amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov) databases and mapped them to their respective structures retrieved from Protein Data Bank (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and plotted using R scripts. Later, we compared these results against reported missense single nucleotide polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and nonpathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results demonstrate that the distribution of mutations per degree (node connectivity) varies significantly compared to random Monte Carlo simulations, tending to remain at nodes with lower connectivity. We also compare with the distribution of a set of human single nucleotide polymorphisms (SNPs). Besides, the proportion of deleterious mutations was significantly increased in nodes with a high degree of connectivity when two different criteria were used for their classification: proportions of software predictors (Ndamage) and clinical classification obtained from ClinVar. Considering these results, we can conclude that the changes in the highly connected amino acids are, in fact, more prone to generate deleterious mutations, due their higher proportion of occurrence in these nodes. Our results also indicate that the conservation of noncovalent interactions is an important parameter to consider in the evaluation of mutations effects and RINs analysis can be used as an additional parameter to aid in the prediction of deleterious mutations in cancer.

Keywords: Residue Interaction Networks, mutation effects, deleterious and neutral mutations, mutation predictors.

(9)

LISTA DE FIGURAS

Figura 1. A. Exemplo da estrutura tridimensional de uma proteína. B. A mesma proteína vista como uma rede de interação de resíduos, em que os nós são os resíduos e as arestas as interações entre eles... 14 Figura 2. Pipeline da mineração dos dados. A. Relacionamento entre os bancos de dados necessários e filtragens. B. Uso do RING para gerar as RINs e alinhamento de posições. C. Geração de banco de dados final e análises. …....……….….18 Figura 3. Resultados das médias das simulações de Monte Carlo em 100.000 rodadas (cinza) comparadas com a média das mutações (em vermelho), constante, apenas com objetivo referencial. No eixo x as rodadas da Monte Carlo e no eixo y as médias observadas………. 38 Figura 4. Distribuição da quantidade de resíduos (eixo y) em relação ao grau de conectividade (eixo x). A. Distribuição de todos os resíduos dos PDBs selecionados (mutações neutras em cor cinza médio, deletérias em cinza escuro e nós que não apresentaram mutações cinza claro). B. Distribuição apenas dos resíduos que apresentaram mutações, para melhor visualização. C. Distribuição da proporção de deletérias e neutras por grau de conectividade ( degree )... 39 Figura 5. Usando o Comp score A . Gráfico de linha comparando valores do Comp score por degree considerando NDamage=0

(cinza claro), 0<NDamage<5 (cinza médio) e NDamage>5 (cinza escuro) B. Distribuição do subconjunto de mutações incluindo apenas as neutras. C. Distribuição considerando apenas as mutações deletérias………...……….…….... 40 Figura 6. Gráfico contendo os valores das distribuição da quantidade de mutações por grau, ponderada pelo CompScore. Em azul todas as mutações, em vermelho o subconjunto de neutras e em verde o subconjunto das deletérias……….……... 41 Figura 7. Distribuição das mutações por grau de conectividade usando um score de normalização (compScore). A. Mutações. B. SNPs. C. Mutações deletérias do ClinVar que foram relacionadas com as mutações..……….….…… 42 Figura 8. Comparação de deletérias entre ClinVar (no quadro à esquerda neutras, à direita deletérias) e NDamage (azul neutras, laranja deletérias). No eixo x temos a quantidade de preditores em que a mutação foi considerada patogênica pelo NDamage sobre a quantidade de preditores utilizados, no eixo y a quantidade de mutações em cada caso….……….…….. 43 Figura 9. Posições relativas das mutações em relação aos PDBs ...……….…….….…….. 43 Figura 10. À esquerda a distribuição dos nós em relação à centralidade ( betweenness weighted ) considerando o NDamage para o preenchimento de cor, abaixo a proporção de deletérias e neutras. À direita a distribuição dos nós em relação ao coeficiente de agrupamento ( clustering coef. ) com preenchimento de cor baseado no NDamage e abaixo sua proporção de deletérias e neutras ……...………..….…….. 44 Figura 11. Distribuição do tipo de interações dos aminoácidos mutados. Proporção de deletérias (laranja) e neutras (azul) por tipo de interação………...………..………....…….... 45 Figura 12. Divisão dos aminoácidos por grupos químicos………..…….……… 47 Figura 13. A. Distribuição das mudanças de grupos químicos das mutações e abaixo a proporção de deletérias (laranja) e neutras (azul) para cada troca………..……….. 48 LISTA DE TABELAS Tabela 1 Preditores utilizados na definição do NDamage (tabela adaptada de LI, Q. et al., 2014)... 19 Tabela 2 Quantidade total, de proteínas, de PDBs e de mutações após cada filtro ou processo……….... 37

(10)

LISTA DE ABREVIATURAS RIN Residue Interaction Network ( Rede de Interação de Resíduos) RING Residue Interaction Network Generator ( Gerador de Rede de Interação de Resíduos ) PPI ProteinProtein Interaction network (Rede de interação proteínaproteína) SNP Single Nucleotide Polymorphism (Polimorfismo de Nucleotídeo Único) TCGA The Cancer Genome Atlas ( O Atlas do Genoma do Câncer)

COSMIC Catalogue Of Somatic Mutations In Cancer ( Catálogo de Mutações Somáticas no Câncer)

PDB Protein Data Bank ( Banco de Dados de Proteínas)

SIFTS Structure Integration with Function, Taxonomy and Sequence (Integração de Estrutura com Função, Taxonomia e Sequência)

(11)

SUMÁRIO 1. INTRODUÇÃO………..…………. 12 2. OBJETIVOS………..……….. 16 3. RESUMO DA ESTRATÉGIA EXPERIMENTAL ……….………...… 17 3.1 Obtenção e mineração dos dados………... 17 3.2 Dados usados para validação……… 18 3.3 Análises estatísticas e visualização dos dados……….. 20 4. ARTIGO……….……...….. 22 5. DISCUSSÃO E RESULTADOS ADICIONAIS ...…………...……….……... 37 6. CONCLUSÃO E PERSPECTIVAS ………..……….….……... 49 REFERÊNCIAS ...………...……. 50

(12)

1 INTRODUÇÃO

Compreender as consequências das mudanças nas sequências biológicas é de suma importância para as pesquisas biomédicas. Atualmente as variações no DNA são consideradas diferenças em comparação à sequência de referência do genoma humano , onde os polimorfismos de nucleotídeo único (SNPs) são detectáveis em mais de 1% da população, enquanto as mutações somáticas são as variações detectadas em menos de 1% (KARKI et al ., 2015).

Tais variações na sequência podem ser classificadas como missense em que a substituição do nucleotídeo resulta em um aminoácido diferente, silenciosas ( silent ) em que a troca do nucleotídeo gera um códon diferente porém o aminoácido não é alterado e sem sentido ( nonsense) em que a troca gera um códon de parada, finalizando a síntese proteica, geralmente antes do esperado.

Mutações em oncogenes, responsáveis pelo crescimento celular, e genes supressores de tumor, responsáveis pelo retardamento da divisão celular, podem levar a um crescimento desordenado das células, ocasionando tumores ou até mesmo câncer (WAKS et al ., 2016). A identificação dos genes condutores ( driver genes ), ou seja, daqueles que possuem vantagem seletiva no crescimento celular, é um dos principais desafios atuais nas pesquisas oncológicas (TOKHEIM, 2016). Existem vários métodos e ferramentas com esse objetivo mas ainda com falhas e muitas vezes discordantes entre si (BAILEY et al ., 2018).

O câncer é uma das principais causas de mortalidade no mundo e projeções mostram que as incidências tendem a aumentar consideravelmente nas próximas décadas. As causas podem ser tanto genéticas quanto ambientais/sóciocomportamentais, o que torna seu estudo algo não trivial. Assim, muitos esforços vêm sendo realizados para auxiliar na descoberta de métodos mais eficazes de prevenção e tratamento (MCDANIEL et al ., 2017; MILROY et al ., 2018) e a bioinformática vem sendo uma poderosa aliada nessa busca (OLIVER et al ., 2015).

Nas últimas décadas diversos bancos de dados públicos foram criados no intuito de unir informações em larga escala que possam ajudar nas pesquisas e análises relacionadas ao câncer. Alguns dos mais conhecidos são: The Cancer Genome Atlas (TCGA) (HUTTER e ZENKLUSEN, 2018), que fornece um atlas com alterações genômicas dos principais tipos de câncer; o Catalogue Of Somatic Mutations In Cancer (COSMIC) (TATE et al., 2018), que disponibiliza uma enorme variedade de dados de mutações somáticas; e o ClinVar ( LANDRUM et al., 2018 ), que contém variantes com associação clínica (PAVLOPOULOU et

al ., 2015; DUMUR, 2014).

Na tentativa de avaliar o impacto das mutações e identificar as deletérias, preditores (como SIFT, PolyPhen2, MutationTaster, FATHMM, entre outros) foram desenvolvidos utilizando diversos métodos ou até mesmo unindo diferentes algoritmos já existentes. Porém, apesar de serem muito úteis e bastante utilizados, ainda há a necessidade de novas descobertas e ajustes para que a exatidão dessas ferramentas possa ser melhorada (DONG et

(13)

al ., 2015), como a busca de novos parâmetros que ajudem na tomada de decisão quando houver contradição entre os preditores.

Os efeitos sequenciais e pontuais das mutações em câncer são bem conhecidos, porém com o crescente número de estruturas proteicas e as várias ferramentas disponibilizadas, os efeitos estruturais dessas mutações também vêm sendo cada vez mais explorados (NIU et al ., 2016). O Protein Data Bank (PDB) é o principal repositório de estruturas 3D (Fig. 2A) e tem sido de suma importância para esse avanço (BURLEY et al ., 2017). Uma forma eficiente de avaliar o impacto dessas mutações é analisando a estrutura completa da proteína utilizandose da modelagem molecular, por exemplo, o que não é algo trivial e ainda dificulta a análise em larga escala ( BHATTACHARYA et al. , 2017, GAO et al ., 2017; JUBB et al .,2017) .

A composição e dinâmica dos resíduos de uma proteína está intimamente ligada à sua função e entender o impacto de uma mutação na proteína vai muito além da simples troca de aminoácido. O quanto essa mudança vai interferir nas ligações com outros resíduos e, principalmente, estimar a importância do aminoácido na estrutura da proteína é de extrema importância para um melhor entendimento das consequências conformacionais (BRYSBAERT et al ., 2018).

As informações para a formação da estrutura estão contidas em sua sequência de aminoácidos (o Dogma de Anfinsen), mas apesar do grande tamanho de seqüência, o espaço de conformação da estrutura é bastante limitado. Dessa forma, sequências dissimilares podem dar origem a estruturas semelhantes. ( PANCSA et al., 2016 ). A conservação das interações químicas é a base da compreensão dos determinantes estruturais subjacentes dos folds proteicos, já que uma mutação pode ou não afetar um importante resíduo para a estabilidade da estrutura global de uma proteína.

Assim, uma forma extremamente eficaz de representação da estrutura de proteínas, mais focada na conservação das interações químicas entre os diferentes aminoácidos são as redes de interação de resíduos (RINs) (Figura 1). Utilizando essa abordagem é possível estimar a importância dos resíduos na proteína devido ao fato de termos a visão da proteína como um grafo, em que os nós são resíduos da proteína (principalmente aminoácidos) e as arestas são as interações físicoquímicas entre esses resíduos (interações iônicas, interações

 , van der Waals, ligações de hidrogênio) (GREWAL et al ., 2015).

O RING 2.0 (Piovesan et al. , 2016) é uma ferramenta para construção de RINs relativamente recente e pode ser aplicada para a análise e previsão do impacto de polimorfismos e mutações. Nela basta fornecer um arquivo .pdb como entrada e o software tem como saída um arquivo com informações a respeito dos nós e das arestas daquela estrutura. Algumas informações geradas geradas são fator de temperatura ( Bfactor ), grau de conectividade do nó ( degree), tipos de interações químicas (intra e inter cadeias) entre os resíduos, distância, ângulo, etc.

(14)

Figura 1. A. Exemplo da estrutura tridimensional de uma proteína. B. A mesma proteína vista como uma rede de interação de resíduos, em que os nós são os resíduos e as arestas as interações entre eles

Outros parâmetros de grafos podem ser calculados a partir das informações fornecidas pelo RING e são informações valiosas para o entendimento da importância de um nó na rede. Entre eles estão o coeficiente de agrupamento ( clustering coefficient ), que mede a tendência dos nós se agruparem, baseado no grau de agrupamento dos nós vizinhos, e centralidade do nó ( betweenness weighted ), em que se considera a quantidade de menores caminhos que passam por aquele nó.

Levando essa abordagem de rede de interação de resíduos para as mutações em câncer, algumas questões podem ser levantadas:

Mutações relacionadas ao câncer e polimorfismos de nucleotídeo único (SNPs) exibem padrões semelhantes de ocorrência?

O que acontece se a modificação específica de AA mantiver a maior parte das interações não covalentes do resíduo original?

Há uma correlação entre essas mudanças e padrões de conservação de resíduos em mutações ou SNPs?

Além disso, já é bem conhecido que nas redes de interação proteínaproteína (PPI), as proteínas que apresentam um alto número de interações tendem a ter um menor número de substituições em sua sequência (Fraser et al. 2002; Holland et al., 2017). Devido a isso, as seguintes questões também foram levantadas:

Os mesmos princípios das PPIs se aplicam a resíduos altamente conectados em uma determinada proteína?

Os aminoácidos com baixo número de interações químicas são mais propensos a mutações?

As mutações deletérias estão mais associadas a sequências de aminoácidos altamente conectadas?

(15)

Para responder a essas questões, elaboramos uma abordagem para estabelecer relações entre mutações missense em câncer e parâmetros de rede em seus respectivos locais de sequência. Nossa hipótese é que as mudanças em aminoácidos com um maior número de conexões aumentam as chances de gerar mutações deletérias, o que tornaria os parâmetros das RINs uma informação complementar para previsão dessas mutações.

1.1 Justificativa

Muitos esforços têm sido feitos para uma identificação mais precisa das mutações que estão diretamente relacionadas ao desenvolvimento de determinado tipo de câncer, no entanto, ainda existem inúmeros desafios para tal tarefa (YI, S. et al., 2017). As ferramentas que prevêem o impacto das mutações desenvolvidas até o momento ainda não são suficientemente precisas, apresentando predições com resultados contrastantes. Percebese então, uma grande necessidade de buscar novas abordagens que possam melhorar esses algoritmos.

A forma que a proteína se estrutura está intimamente ligada à sua função, tornando de extrema importância entender como os aminoácidos estão ligados e como mutações vão impactar a estrutura proteica como um todo. As redes de interação entre resíduos (RINs) nos permitem justamente levar em consideração as ligações químicas secundárias que são essenciais para a manutenção da estrutura tridimensional da proteína.

Com esse tipo de visualização e a forma como seus dados são estruturados é possível utilizar uma abordagem em larga escala para o entendimento das propriedades dinâmicas e estruturais das proteínas. Além de permitir o cálculo de parâmetros de teoria dos grafos, sendo um adicional ao usar técnicas de análise de dados na busca de padrões ainda não observados ou comprovados.

Acreditamos que dados gerados pela análise das RINs possam indicar locais nas proteínas que são mais passíveis de sofrer mutações ou locais onde estas terão efeitos mais danosos. Com essas informações parâmetros adicionais podem ser utilizados para ajudar na predição de mutações deletérias diretamente associadas ao desenvolvimento do câncer.

(16)

2 OBJETIVOS

Objetivo geral

Mapear e encontrar relações entre mutações associadas ao câncer e dados gerados pelas redes de interação entre resíduos (RINs), com a finalidade de entender como essas mutações causam impacto na estrutura e função das proteínas.

Objetivos específicos

⬩ Relacionar as informações das RINs com as do banco de mutações em um banco único.

⬩ Realizar análises estatísticas para observar os padrões e correlações entre os dados obtidos.

⬩ Avaliar a importância da conservação de interações químicas entre aminoácidos.

⬩ Comparar os padrões encontrados para mutações relacionadas a câncer com os padrões encontrados em polimorfismo de nucleotídeo único (SNPs) e com dados clínicos do ClinVar.

(17)

3 RESUMO DA ESTRATÉGIA EXPERIMENTAL

3.1 Obtenção e mineração dos dados

Dados de mutações em câncer foram retirados dos bancos The Cancer Genome Atlas  TCGA (TOMCZAK et al ., 2015) e Catalogue Of Somatic Mutations In Cancer COSMIC (FORBES et al ., 2015) e curados manualmente para um banco de dados relacional. Para predição do efeito de cada mutação, 9 diferentes preditores de impacto foram utilizados (TABELA 1). O escore NDamage resume esta informação, contendo o número de preditores nos quais a mutação foi classificada como deletéria (PUTNAM et al ., 2016). Essa variável foi imprescindível para as análises posteriores. Depois, apenas as mutações missense e que ocorriam em regiões codificantes foram filtradas.

O cruzamento das informações entre os registros do banco Uniprot e as estruturas tridimensionais de proteínas resolvidas presentes no banco PDB foram obtidas por meio do arquivo “pdbtosp.txt”, presente no site do UniProt (www.uniprot.org/docs/pdbtosp) e relacionadas com os dados de mutações. Nesse ponto filtramos também apenas os PDBs obtidos através da técnica de cristalografia de RaiosX e com resolução menor que 2.6 Å, para garantir uma boa qualidade da estrutura. Além disso foram consideradas apenas proteínas "selvagens" ( Wild Protein ).

Para mapear a posição de alguns PDBs com a correta posição na sequência UniProt, adicionamos ao banco informações do SIFTS (www.ebi.ac.uk/pdbe/docs/sifts). Além desse mapeamento foi necessária a criação de um procedimento para automatizar o alinhamento de posições das mutações com o registro de sequência do banco UniProt, que em alguns casos não era correspondente à posição obtida no arquivo PDB com as coordenadas estruturais. Para isso foi criado um algoritmo para resolver tais discrepâncias, utilizando uma estratégia de varredura ambilateral da sequência, “shift left” e “shift right”, a partir da posição média da mutação, buscando um alinhamento de pelo menos 80% dos aminoácidos (critério estabelecido devido às variações naturais das sequências). As posições remanescentes que não foram alinhadas ou que não tinham uma quantidade suficiente foram descartadas.

Para construção das redes de interação de resíduos (RINs) utilizamos o software RING 2.0 ( PIOVESAN et al. ,2016 ). Assim, todos os arquivos PDBs relacionados às mutações obtidas após os filtros foram obtidos a partir do Protein Data Bank ( www.rcbs.org ), para serem utilizados posteriormente como entrada. Criamos um script em Python para automatizar esse procedimento para cada um dos PDBs. A saída do software foram arquivos com informações de nós ( Nodes ) e de arestas ( Edges ) para cada PDB. Essas informações também foram adicionadas ao banco e relacionadas.

(18)

Além das informações obtidas com o RING 2.0 também calculamos, por meio dos arquivos de saída, outros parâmetros de grafos associados aos nós coeficiente de agrupamento e centralidade adicionando ao banco tais resultados.

O Coeficiente de clusterização mede o grau de agrupamento dos vizinhos de um nó, com resultado variando de 0 a 1, sendo 1 referente ao número máximo de conexões possível. Para o cálculo foi utilizada a seguinte fórmula:

N umber of triangles of node_(i)

0.5 × Degree of node × (Degree of node + 1)_(i) _(i) ( 1)

Um triângulo ocorre quando dois vizinhos do nó interagem entre si, então sabendo o grau do nó e o número de triângulos através da função count_triangles do pacote igraph (http://igraph.org/) foi possível calcular tal parâmetro.

O betweenness weighted ( intermediação) mede a centralidade de um nó da rede com base no número de caminhos mais curtos que passam por ele. Foi calculado utilizando a distância entre os aminoácidos como peso da aresta e normalizando o resultado (variando entre 0 e 1). Esta métrica foi calculada com a função betweenness do pacote igraph.

Ao final do processo, como geralmente tínhamos mais de um PDB associado a uma mesma proteína, para evitar redundâncias selecionamos apenas um código PDB por mutação e isso foi feito selecionandoos por meio dos seguintes critérios: maior tamanho, melhor resolução e ordem alfabética, respectivamente (Figura 2). Figura 2. Pipeline da mineração dos dados. A. Relacionamento entre os bancos de dados necessários e filtragens. B. Uso do RING para gerar as RINs e alinhamento de posições. C. Geração de banco de dados final e análises.

(19)

3.2 Dados usados para validação

Estabelecemos o critério de classificação de mutações deletérias/neutras por meio do

NDamage, consideramos deletérias aquelas em que pelo menos cinco preditores classificaram como danosas e as demais consideramos neutras. Ao todo foram utilizados nove preditores descritos na Tabela 1:

Tabela 1 Preditores utilizados na definição do NDamage (tabela adaptada de LI, Q. et al., 2014)

Preditor Referência Estratégia

SIFT Predicting the effects of coding nonsynonymous variants on protein function using the SIFT algorithm. Kumar P, Henikoff S, Ng PC Nat Protoc. 2009; 4(7):107381. (http://sift.bii.astar.edu.sg/) Baseiase no grau de conservação de aminoácidos em alinhamentos derivados de sequências estreitamente relacionadas, coletadas através do PSIBLAST. Polyphen2 HDIV A method and server for predicting damaging missense mutations. Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR Nat Methods. 2010 Apr; 7(4):2489. (http://genetics.bwh.harvard.edu/pph2/) Utiliza o classificador Naive Bayes para predizer o impacto da substituição de aminoácidos. Baseiase tanto na sequência quanto na estrutura. HDIV identifica as mutações prejudiciais assumindo diferenças entre proteínas humanas e os seus homólogos de mamífero intimamente relacionados como nãoprejudiciais. Polyphen2 HVAR A method and server for predicting damaging missense mutations. Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR Nat Methods. 2010 Apr; 7(4):2489. (http://genetics.bwh.harvard.edu/pph2/) Utiliza o classificador Naive Bayes para predizer o impacto da substituição de aminoácidos. Baseiase tanto na sequência quanto na estrutura. O HVAR identifica mutações causadoras de doenças humanas, assumindo que os nsSNPs humanos comuns são nãoprejudiciais. MutationAssessor _{Predicting the functional impact of} protein mutations: application to cancer genomics. Reva B, Antipin Y, Sander C Nucleic Acids Res. 2011 Sep 1; 39(17):e118. (http://mutationassessor.org/r3/) Prevê o impacto funcional das substituições de aminoácidos baseado na conservação evolucionária do aminoácido afetado em proteínas homólogas. MutationTaster MutationTaster evaluates

(20)

sequence alterations. Schwarz JM, Rödelsperger C, Schuelke M, Seelow D Nat Methods. 2010 Aug; 7(8):5756. (http://www.mutationtaster.org/) doenças da alterações na sequência de DNA. Integra informações de conservação evolutiva, alterações no sítio de splicing, perda de características protéicas e alterações que podem afetar a quantidade de mRNA de diferentes bases de dados biomédicos e utiliza ferramentas de análise estabelecidas. LR Agresti A. (2002) Categorical Data Analysis. WileyInterscience, New York. Abordagem baseada em agrupamento que integra múltiplos sistemas de score (de predição de função e conservação) por meio de regressão logística. LRT Identification of deleterious mutations within three human genomes. Chun S, Fay JC Genome Res. 2009 Sep; 19(9):155361. (http://www.genetics.wustl.edu/jflab/lrt_ query.html) Identifica posições conservadas de aminoácidos e mutações deletérias usando um conjunto de dados genômicos comparativos de múltiplas espécies de vertebrados. RadialSVM Corinna Cortes V.V. (1995) Supportvector networks. Mach. Learn., 20, 273–297 Abordagem baseada em agrupamento que integra vários sistemas de score(de predição de função e conservação) por meio de máquina de suporte vetorial radial. FATHMM Predicting the functional consequences of cancerassociated amino acid substitutions. Shihab HA, Gough J, Cooper DN, Day IN, Gaunt TR Bioinformatics. 2013 Jun 15; 29(12):150410. (http://fathmm.biocompute.org.uk/) Análise funcional através de modelos ocultos de Markov. Prevê as conseqüências funcionais de substituições de aminoácidos associadas ao câncer usando um modelo ponderado para mutações de doenças hereditárias.

Para verificar a precisão do nosso critério obtemos dados do ClinVar ( LANDRUM et al., 2018) e as mutações comuns aos dois bancos foram salvas à parte para análise e comparação. As mutações com significância clínica identificada como benigna ou provavelmente benigna consideramos neutras, e as com significância clínica identificada como patogênica ou possivelmente patogênica consideramos deletérias.

Utilizamos, ainda, o banco dbSNP (SHERRY et al., 2001), que foi inserido em um banco de dados separado onde foi realizado um procedimento semelhante ao aplicado no banco de mutações (relacionamento com PDB, alinhamento, relacionamento com parâmetros das RINs). Com isso pôdese comparar as diferenças nos padrões das mutações em câncer com os padrões que ocorrem nos SNPs.

(21)

3.3 Análises estatísticas e visualização dos dados Ao final, os arquivos gerados foram:

⬩ Mutations_Nodes.csv , contendo os dados de mutações após todos os filtros e relacionamentos realizados na etapa de mineração.

⬩ NodesAll.csv , contendo informações de todos os nós de todos os PDBs humanos, wild type , obtidos com raiox e resolução < 2.6 Å

⬩ NodesSelected.csv, contendo um subconjunto do arquivo acima, com todos os nós mas apenas dos PDBs relacionados à tabela final de mutações.

⬩ Clinvar_Mutations.csv , contendo os dados de mutações do ClinVar que foram relacionados com a tabela final de mutações.

⬩ SNP_Nodes.csv , contendo os dados do banco dbSNP relacionados à PDBs e parâmetros das RINs.

Para comparar resultados e comprovar padrões de distribuições realizamos simulações de Monte Carlo, em que a mesma quantidade de nós mutados foi sorteada aleatoriamente do conjunto total de nós dos PDBs utilizados ( NodesSelected ) por 100.000 vezes. O teste de Wilcoxon também foi realizado para a comparação das médias das distribuições não paramétricas.

Um escore de normalização (Comp _score) (Equação 1) foi formulado para termos uma melhor visualização da distribuição dos nós mutados em relação ao seu grau de conectividade. O escore leva em conta não só a quantidade de mutações por grau de conectividade do nó , mas também compara com o total de nós (mutados ou não) naquele grau, ponderando a distribuição. 4 ARTIGO submetido

(22)

are more commonly associated with highly connected amino

2

acids

3

Laise C. Florentino1,2, Diego A. A. Morais1,2, Diego G. Teixeira2,3, Rodrigo J. S. Dalmolin2,3, 4

Jorge E. S. Souza2, Sandro J. de Souza2,4 and João Paulo M. S. Lima2,3* 5

6

1 - Programa de Pós-Graduação em Bioinformática (PPg-Bioinfo), Instituto Metrópole 7

Digital (IMD), Universidade Federal do Rio Grande do Norte (UFRN), Natal, RN, Brazil, 8

2 - Bioinformatics Multidisciplinary Environment (BioME), IMD, UFRN, Natal, RN, 9

Brazil, 10

3 - Department of Biochemistry, UFRN, Natal, RN, Brazil; Institute of Tropical Medicine 11

of Rio Grande do Norte (IMT-RN), Natal, Rio Grande do Norte, Brazil, 12

4 - Brain Institute, UFRN, Natal, Brazil. 13

Abstract

14

Many efforts to identify cancer-associated mutations have been made, most at the 15

sequence level. The understanding of the structural impact of a given amino acid change 16

is of major importance to cancer medical research. In the present study, we used residue 17

interaction networks (RINs) for large-scale analysis of cancer missense mutations to infer 18

their respective structural effects. We hypothesize that changes in highly connected 19

amino acids are more likely to give rise to deleterious mutations with more drastic 20

structural effects. For this, we analyzed several network parameters from RINs to 21

establish which ones are more common in sequence sites (nodes) with an occurrence of 22

reported missense cancer mutations. Our results demonstrate that the distribution of 23

somatic mutations per degree (node connectivity) varies significantly compared to the 24

distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain 25

at nodes with lower connectivity. Besides, the proportion of deleterious mutations was 26

significantly increased in nodes with a high degree of connectivity when two different 27

criteria were used for their classification: prediction as deleterious in at least five out nine 28

software predictors and clinical classification obtained from ClinVar database. Taking 29

into account these results, we can conclude that the changes in the highly connected 30

amino acids are indeed more likely to generate deleterious mutations, due to their higher 31

proportion of occurrence in these nodes. RINs can be used as an additional parameter to 32

aid in the prediction of the impact of cancer mutations. 33

34

1 Introduction

35

Deleterious mutations are those that have stronger phenotypic consequences, making 36

their prediction essential for cancer research. Since not all predicted deleterious missense 37

mutations are disease-causing, there are still many challenges on the way to their precise 38

and automated identification (Stehr et al. 2011), especially the ones that can give rise to 39

driver mutations. For long, researchers have been studying methods to discriminate these 40

mutations from harmless variants (Petukh et al., 2015). Although several tools are 41

available to perform this task, there are still limitations, and it is common to obtain 42

different conclusions from their results (Gress et al., 2017; Bailey et al., 2018). 43

One effective way to study the structural impacts and effects caused by cancer-44

associated mutations is a whole protein structure analysis (Gao et al., 2017). Recently, 45

with the growing number of protein structures and the variety of tools available for their 46

exploration, efforts in this sense have been increased (Niu et al., 2016). This approach 47

(23)

constraints, consequences from a given change (Jubb et al., 2017). Other studies have 49

emphasized sequence-based phylogenetic information, structural modifications based on 50

chemical characteristics of amino acid side chains, as well as functional, physicochemical 51

and biophysical features (Petukh et al. 2015; Echave et al. 2017). However, this is not a 52

straightforward task, since it requires full structure assessment and modeling techniques, 53

especially when applied to multiple proteins or multiple mutations in the same protein 54

(Bhattacharya et al. 2017). 55

One way that disease-causing missense mutations exert their effects is by 56

alterations of important amino acid residue properties (Gress et al., 2017). The 57

identification of essential residues to protein structure and function can also be inferred 58

by their degree of connectivity through chemical noncovalent interactions with other 59

amino acids or ligands since the conservation of these interactions plays a significant role 60

on structure conservation and consequently protein function (Fornasari et al., 2007; 61

Kucukkal et al., 2015). This information can be easily assessed by the construction of 62

residue interaction networks (RINs) from a given structure (a pdb file). In a RIN, each 63

amino acid is treated as a node and its connections as edges (Piovesan et al., 2016). This 64

kind of representation improves data handling and accelerate the analysis of the functional 65

impact of several mutations. 66

A network approach to understanding the structural and functional impacts of 67

cancer mutations raises some interesting questions. Amino acids with a low number of 68

chemical interactions are more prone to mutations? Are deleterious mutations associated 69

with highly connected amino acid sequence sites? Do cancer mutations and single 70

nucleotide polymorphisms (SNPs) display similar patterns of occurrence? To answer 71

these questions, we devised an approach to establish relationships between missense 72

mutations from sixteen cancer types to network parameters of their respective sequence 73

sites. We show that changes in highly connected nodes are more significantly associated 74

with deleterious mutations. Furthermore, our data shows the utility of RINs as an effective 75

way to predict the functional impact of mutations in proteins. 76

77

2 Methods

78

2.1 Data retrieving and dataset formatting 79

Datasets of cancer mutations were retrieved from The Cancer Genome Atlas 80

(TCGA) and Catalogue Of Somatic Mutations In Cancer (COSMIC) up to 2016 and 81

filtered to select only missense mutations occurring in coding regions. Data were merged 82

and manually curated in an SQL database to relate all necessary data for the analysis 83

(Supplementary Table S1). One of the columns added was the Ndamage, a score 84

containing the number of prediction tests that predict a mutation as deleterious (Putnam 85

et al., 2016). Using this score, we considered a deleterious mutation when at least five 86

predictors (out of 9) predict them as so. Supplementary Table S2 lists all the predictors 87

used in this study. 88

Tridimensional protein structures information for these genes were obtained using 89

cross-reference between uniprot_kb to PDB codes listed in the pdbtosp.txt file, obtained 90

from UniProt (The UniProt Consortium, 2017). Additional filtering was applied to 91

complete the pdb dataset for later analysis: wild-type proteins (percent coverage of 92

UniProt sequence ≥ 95%) with structures obtained by X-ray method and with resolution 93

<2.6 Å. Then, the remaining pdb codes were associated with the mutation table. 94

(24)

From the above database, the position of each cancer mutation was mapped to the 96

respective UniProt record. To assign to the correct residue position in the pdb, we used 97

SIFTS (Velankar et al., 2013). However, in some PDB files, the changed amino acid did 98

not match to the same position in the UniProt sequence record (Prlic et al., 2016). To 99

correct these unpaired sites, we created an alignment algorithm to ensure that at least 90% 100

of amino acids in distinct positions for each UniProt sequence (due to natural variants) 101

were aligned (Supplementary File 1). Mutations that could not be mapped were discarded 102

(those not having enough mutations by UniProt to give certainty of a correct mapping or 103

when returned alignments were worse than the established threshold). To avoid 104

redundancies, we used just one pdb file associated with the same uniprot_id and mutation 105

position, sorted by broader sequence coverage, better resolution, and alphabetical order, 106

respectively. Thus, PDB files encompassing the maximum number of positions were 107

chosen and downloaded from the RCSB PDB website (rcsb.org). 108

Residue interaction networks were constructed using RING 2.0 software 109

(Piovesan et al., 2016) which generated nodes.txt and edges.txt files for each PDB. We 110

merged these results into our database as an attribute in the main table using a custom 111

python script. From edges.txt output file, graph parameters like clustering coefficient and 112

weighted betweenness centrality were calculated for each node and also added to our 113

database. To calculate the clustering coefficient without going through all the network, 114

we used the following equation: 115

116

In this case, a triangle occurs when two neighbors of a Node(i) interact with each 117

other. Therefore, we counted the number of triangles using the function count_triangles 118

of the R package igraph (http://igraph.org/). Through the equation (1), the estimated 119

clustering coefficient ranges from 0 to 1, where 1 is the maximum possible number of 120

connections. Note that, if a given node has only two neighbors and they form a triangle, 121

the clustering coefficient is equal to 1. The parameter of betweenness centrality computes 122

node centrality concerning the number of shorter pathways that pass through it (Zhang et 123

al. 2016). Using RING2.0 files, we normalized the betweenness centrality utilizing the 124

distance between each amino acid (edges) as weight and calculated it using the 125

betweenness function of igraph. The results range from 0 to 1; thus a value of 0.1 means 126

that 10% of the shortest pathways of the network pass through that node. 127

128

2.3 Comparisons with SNPs and ClinVar data

129

We also performed a network parameters analysis in sequence sites with reported 130

occurrence of SNPs. For this, we used data from the Database for Short Genetic 131

Variations (dbSNP) (Sherry et al., 2001) to compare with the parameters trends observed 132

from the cancer mutation dataset. Only SNPs in uniprot_id and PDBs previously selected 133

were analyzed, using the methodology mentioned above. Also, we cross-referenced our 134

database to mutations listed in ClinVar database (Landrum et al., 2016) to verify if the 135

use of NDamage is indeed a reasonable criterion to predict the possibility of a given 136

mutation being deleterious. For this, we retrieved all mutations from ClinVar and 137

performed annotations with SnpEff/SnpSIFT, considering only non-synonymous 138

mutations. Then, we grouped ClinVar mutations identified as “benign” (2-non-139

(25)

“likely pathogenic” (4-probable pathogenic) or “pathogenic” (5-pathogenic) 141

(Supplementary Table S3), in two higher categories, neutral (clinvar=2) and deleterious 142

(clinvar=5), respectively. The same RINs parameters for these mutations were also 143

calculated for comparison and validation. 144

2.4 Statistical Analyses and data visualization

145

At the end of the data mining process, 4 csv files were generated and loaded as 146

data frame in R: The primary database (MutatedNodesEdgesGraph); all nodes from 147

selected PDBs, including the ones that were not targeted for the observed mutations, and 148

their respective network parameters (AllNodes); mutations that were classified as 149

pathogenic in Clinvar (MutationsClinvar); and dbSNP filtered by the selected Uniprots 150

(SNPs). 151

A normalization score (CompScore) was formulated to have a better visualization of

152

the distribution of mutated nodes by degree, considering not only the number of mutations 153

per degree alone but also comparing the total of nodes with that degree. Thus, if there is 154

a small number of nodes with given connectivity (degree) considering all nodes, a 155

mutated node in that degree will have a higher weight, since its lower probability of 156

occurrence. The following equation calculates Comp-Score: 157

158

Monte Carlo Simulations were performed to compare the obtained results to a 159

purely probabilistically distribution. For this, the same number of mutated nodes were 160

randomly drawn (taking into consideration that different mutations can occur in the same 161

node), from the total group of nodes (AllNodes), for 100.000 times. Only nodes related to 162

amino acids positions were considered. Wilcoxon's test assessed significant differences 163

from parameters distributions of MutatedNodes and AllNodes. 164

165

3 Results and discussion

166

Structural constraints are long known to influence amino acid variation among 167

protein sites (Echave et al. 2016). It is conceivable that a given mutation can have a 168

destabilizing effect in the protein, but not all local changes will have impacts on the 169

function (Kucukkal et al. 2015). Using RINs, we can analyze both local and global 170

changes induced by mutations, since the effect on the conservation of all non-covalent 171

interactions can be assessed. Therefore, to answer one of our first questions, if mutations 172

in amino acids with a higher number of non-covalent interactions are more likely to be 173

deleterious, we first focused the analysis in the distribution of node degree. 174

From our initial gene set of 7,423 genes with reported cancer-associated 175

mutations, a total of 17,196 mutations in 466 genes and 462 UniProt records were 176

matched to experimentally resolved protein structures (PDB) within our inclusion criteria. 177

After RIN construction for each one of these PDBs, we first analyzed non-edges 178

parameters. We observed a significant difference between the mean from the distribution 179

of degrees from all nodes (of selected PDBs), independently if they are mutated or not, 180

and the one from the distribution of mutations in nodes where at least one mutation was 181

mapped (p<2.2×10-16; Wilcoxon test) (Figure 1A). Considering our criteria to differentiate 182

deleterious and neutral mutations (using the parameter NDamage - see Methods section), 183

(26)

different (p<2.2×10 ; Figure 1B) and the proportion of deleterious mutations 185

(NDamage>5) is positively associated with the degree, i. e. the connectivity of a given 186

protein site (Figure 1C). These findings corroborate previous conclusions that the pattern 187

of amino acid substitution for a given sequence site depends on its interactions with other 188

residues (Fornasari et al. 2007). 189

To verify if the pattern of mutation distribution across the nodes is non-random, 190

100.000 rounds of Monte Carlo random simulations were performed. From this 191

randomized dataset, it was observed that the mean of their degrees' distribution remained 192

approximately 4.741, whereas the one from real reported mutations was 4.577 193

(p=1.301×10-13_{). Moreover, there is no significant difference between the mean of}

194

simulations and the one obtained from all nodes (p=0.996) of the studied PDB dataset. 195

Taking into account the above results, we can conclude that there is a negative association 196

between residue degree and deleterious mutations. Gress et al. (2017) showed similar 197

results, where non-synonymous single nucleotide variants (nsSNVs) associated with 198

diseases were enriched in protein-ligand and protein-DNA contacts when compared to 199

random datasets. In fact, similar trends are also observed in other reports based on 200

biological network approaches, for example in protein-protein interactions (PPI), where 201

proteins with a higher number of interactions tend to present a lower number of 202

substitutions in their sequence (Holland et al., 2017). 203

Even though significant differences were found between randomized data and our 204

mutation dataset, the vast majority of the nodes from protein structures still have small 205

degrees values, ranging from 1 to 10. Therefore, to have a better evaluation of the 206

distributions trend, a normalized score (CompScore - see Methods section) was created 207

to take into consideration the low probability of a mutation occurring in less represented 208

nodes. By applying this score, a more striking difference is observed in the patterns of 209

degree distribution between deleterious and neutral mutations, as can be evidenced in 210

Figure 2. Deleterious mutations show increases in the weighted frequency until the degree 211

value of 11 (Figure 2B) whereas neutral mutations occurrence decreases linearly as the 212

degree value increases (Figure 2C). Considering the weighted distribution from both 213

types of mutations (Figure 2A), a similar trend to the one observed in a dataset with 214

251,284 non-synonymous SNPs (Figure 2E and Supplementary Figure 1) is observed. 215

Talavera et al. (2010) also reported that in general, patterns of cancer-associated 216

mutations and polymorphisms are indeed very similar. However, this absence of variation 217

does not sustain after separation of the neutral and deleterious mutations, similarly as 218

previously observed in mutations of tumor suppressors genes and oncogenes, which also 219

present opposing trends of occurrence in protein surfaces, functional sites and stability 220

(Stehr et al. 2011). 221

To verify if our classification criterion is adequate, we also analyzed and 222

compared the normalized distribution of mutations predicted as neutral by all predictors 223

(NDamage=0) and mutations predicted by one to four predictors (1<NDamage>4) 224

(Figure 2D). Even though there is a possibility that this last group can include real or 225

quasi-deleterious mutations, its trend is similar to the one observed for all neutral 226

mutations (NDamage<5 - Figure 2C). Also, mutations with NDamage=0 have higher 227

scores on smaller degrees. Clinical evidence is crucial in establishing relationships with 228

the predicted impact of a mutation (Schaefer et al. 2012). So, we plotted the normalized 229

distribution of a set of putative driver mutations (clinvar=5 - See methods) from the 230

ClinVar database cross-referenced with our deleterious mutations dataset (Figure 2F). A 231

similar trend to the more harmful mutation distribution (Figure 2B) with a higher number 232

of mutations in higher degrees was observed, which supports our initial hypothesis. The 233

(27)

strong general correlations to mutation occurrence (see Supplementary Figures 2 and 3), 235

though they can be useful to explain mutation effects in individual cases. 236

The conservation of non-covalent interactions of a residue plays an important role 237

to maintain protein structure (Kayikci et al. 2018) and is an essential factor in the 238

evaluation of the effects of a mutation. Vijayabaskar and Vishveshwara (2012) have 239

demonstrated that TIM barrels with low sequence similarity maintain highly similar 240

structures by the maintenance of these interactions. Therefore, mutations in highly 241

connected amino acids sites have a lower probability of retaining the interactions that 242

hold essential structural folds and increase the chances to give rise to deleterious 243

mutations with stronger effects on protein function. In this matter, RINs construction and 244

analysis can be an additional tool for the identification of the impact of new mutations 245

and therapeutic decision. 246

247

4 Conclusions

248

In the present study, we analyzed parameters of RINs to understand impacts of 249

cancer-associated mutations, and interesting patterns were found that can aid the 250

prediction of deleterious and possibly driver mutations. Our major findings were: (1) 251

Cancer-related mutations tend to be more frequent in less connected amino acids, and this 252

pattern is non-random. (2) Deleterious and neutral mutations show distinct patterns of 253

distribution concerning the nodes’ degree (amino acids). The former ones occur more 254

frequently in amino acids with higher degrees. This fact is probably associated with a 255

drastic effect in protein function. Therefore, the herein approach can aid in 256

assessment/prediction of the functional impact of a given mutation, especially if it is a 257 deleterious one. 258 259 260 5 Acknowledgements 261

The authors are indebted to the High-Performance Computing Center (NPAD) at 262

UFRN for the availability of computational resources and the Instituto Metropole Digital 263

(IMD) for the support in the realization of this work. We also wish to thank André L. F. 264

Faustino and Vandeclécio L. da Silva for the help in the initial filtering of COSMIC and 265 TCGA datasets. 266 267 6 Funding 268

This study was funded by the Coordenação de Aperfeiçoamento de Pessoal de 269

Nível Superior - Brasil (CAPES), Finance Code 001. JPMS Lima, JES Souza and SJ 270

Souza were supported by a grant (23038.004629/2014‐19) from CAPES. L.C. Florentino 271

was supported by a scholarship from CAPES. JPMS Lima also has financial support from 272

the Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq (grant 273

number: 447222/2014-7). 274

275

Conflict of Interest: none declared.

(28)

References

278

Bailey,M.H. et al. (2018) Comprehensive Characterization of Cancer Driver Genes and 279

Mutations. Cell, 173, 371–385.e18. 280

Bhattacharya,R. et al. (2017) Impact of genetic variation on three dimensional structure 281

and function of proteins. PLoS One, 12, e0171355. 282

Echave,J. et al. (2016) Causes of evolutionary rate variation among protein sites. Nat. Rev. 283

Genet., 17, 109–121.

284

Echave,J. and Wilke,C.O. (2017) Biophysical Models of Protein Evolution: Understanding 285

the Patterns of Evolutionary Sequence Divergence. Annu. Rev. Biophys., 46, 85– 286

103. 287

Fornasari,M.S. et al. (2007) Quaternary structure constraints on evolutionary sequence 288

divergence. Mol. Biol. Evol., 24, 349–351. 289

Gress,A. et al. (2017) Spatial distribution of disease-associated variants in three-290

dimensional structures of protein complexes. Oncogenesis, 6, e380. 291

Gao,J. et al. (2017) 3D clusters of somatic mutations in cancer reveal numerous rare 292

mutations as functional targets. Genome Med., 9, 4. 293

Holland,D.O. et al. (2017) Protein-protein binding selectivity and network topology 294

constrain global and local properties of interface binding networks. Sci. Rep., 7, 295

5631. 296

Jubb,H.C. et al. (2017) Mutations at protein-protein interfaces: Small changes over big 297

surfaces have large impacts on human health. Prog. Biophys. Mol. Biol., 128, 3–13. 298

Kayikci,M. et al. (2018) Visualization and analysis of non-covalent contacts using the 299

Protein Contacts Atlas. Nat. Struct. Mol. Biol., 25, 185–194. 300

Kucukkal,T.G. et al. (2015) Structural and physico-chemical effects of disease and non-301

disease nsSNPs on proteins. Curr. Opin. Struct. Biol., 32, 18–24. 302

Landrum,M.J. et al. (2016) ClinVar: public archive of interpretations of clinically 303

relevant variants. Nuclear Acids Res., 44, D862–D868. 304

Niu,B. et al. (2016) Protein-structure-guided discovery of functional mutations across 305

19 cancer types. Nat. Genet., 48, 827–837. 306

Petukh,M. et al. (2015) On human disease-causing amino acid variants: Statistical study of 307

sequence and structural patterns. Hum. Mutat., 36, 524–534. 308

Piovesan,D. et al. (2016) The RING 2.0 web server for high quality residue interaction 309

networks. Nucleic Acids Res., 44, W367-74. 310

Prlic,A. et al. (2016) Integrating genomic information with protein sequence and 3D 311

atomic level structure at the RCSB protein data bank. Bioinformatics, 32, 3833– 312

3835. 313

Putnam,C.D. et al. (2016) A Genetic Network That Suppresses Genome Rearrangements 314

in Saccharomyces Cerevisiae and Contains Defects in Cancers. Nature 315

Communications., 7,11256. 316

Schaefer,C. et al. (2012) Disease-related mutations predicted to impact protein function. 317

BMC Genomics, 13 Suppl 4, S11.

318

Sherry,S.T. et al. (2001) dbSNP: the NCBI database of genetic variation. Nucleic Acids 319

Res., 29, 308–311. 320

Stehr,H. et al. (2011) The structural impact of cancer-associated missense mutations in 321

oncogenes and tumor suppressors. Mol. Cancer, 10, 1–10. 322

Talavera,D. et al. (2010) The (non)malignancy of cancerous amino acidic substitutions. 323

Proteins Struct. Funct. Bioinforma., 78, 518–529.

324

The UniProt Consortium (2017) UniProt: the universal protein knowledgebase. Nucleic 325

Acids Res., 45, D158–D169. 326

(29)

Sequences resource. Nucleic Acids Res., 41, D483–D489. 328

Vijayabaskar,M.S. and Vishveshwara,S. (2012) Insights into the fold organization of 329

TIM barrel from interaction energy based structure networks. PLoS Comput. Biol., 330

8, e1002505.

331

Zhang,P. et al. (2017) A protein network descriptor server and its use in studying protein, 332

disease, metabolic and drug targeted networks. Brief. Bioinform., 18, 1057–1070. 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349