• Nenhum resultado encontrado

neoANT:HILL: uma ferramenta integrada para a detecção de potenciais neoantígenos

N/A
N/A
Protected

Academic year: 2021

Share "neoANT:HILL: uma ferramenta integrada para a detecção de potenciais neoantígenos"

Copied!
60
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE INSTITUTO METRÓPOLE DIGITAL

PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA

ANA CAROLINA MIRANDA FERNANDES COÊLHO

neoANT-HILL:

Uma ferramenta integrada para a detecção de potenciais neoantígenos

NATAL - RN 2019

(2)

ANA CAROLINA MIRANDA FERNANDES COÊLHO

neoANT-HILL:

uma ferramenta integrada para a detecção de potenciais neoantígenos

Dissertação de mestrado apresentada ao Programa de Pós-Graduação Bioinformática da Universidade Federal do Rio Grande do Norte.

Área de concentração: Bioinformática Linha de pesquisa: Genômica do câncer Orientador: Prof. Dr. Sandro José de Souza

NATAL - RN 2019

(3)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

Coêlho, Ana Carolina Miranda Fernandes.

neoANT:HILL: Uma ferramenta integrada para a detecção de potenciais neoantígenos / Ana Carolina Miranda Fernandes Coêlho. - 2019.

59f.: il.

Dissertação (Mestrado)-Universidade Federal do Rio Grande do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em Bioinformática, Natal, 2019.

Orientador: Dr. Sandro José de Souza.

1. Neoantígenos - Dissertação. 2. Câncer - Dissertação. 3. mutações somáticas - Dissertação. 4. Células T - Dissertação. 5. Moléculas de HLA - Dissertação. 6. Análises imunogenômicas - Dissertação. I. Souza, Sandro José de. II. Título.

RN/UF/BCZM CDU 004:616-006.6

(4)

ANA CAROLINA MIRANDA FERNANDES COÊLHO

neoANT-HILL:

uma ferramenta integrada para a detecção de potenciais neoantígenos

Dissertação de mestrado apresentada ao Programa de Pós-Graduação Bioinformática da Universidade Federal do Rio Grande do Norte.

Área de concentração: Bioinformática Linha de pesquisa: Genômica do câncer Orientador: Prof. Dr. Sandro José de Souza

Natal, 18 de abril de 2019

(5)

AGRADECIMENTOS

Aos meus pais, Gustavo e Adriana, por estarem sempre presentes, por serem essenciais, pelo apoio incondicional ao longo de toda a minha vida e, principalmente nesse momento, por me incentivarem a não desistir. As minhas irmãs, Mariana e Gabriela, que me motivam a ser exemplo para elas. Aos meus irmãos, Eros e Felipe, por todo o apoio.

A Danilo Martins, que não só me apoiou incondicionalmente e acreditou na minha capacidade, mas, também por me ajudar, pacientemente, na execução deste trabalho.

Ao professor Sandro José de Souza, pela oportunidade de tê-lo como orientador.

A André Fonseca, Paulo Branco e Lucas Marques por também contribuírem diretamente na execução deste trabalho.

Aos todos os demais colegas do BioME, seja os que me ajudaram e responderam minhas inúmeras dúvidas ou aqueles que me apoiaram emocionalmente e, principalmente, aqueles que fizeram ambos.

A Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), que através da rede de Biologia Sistêmica do Câncer, que me concedeu suporte financeiro durante todo o período do mestrado.

(6)

“We are glorious accidents of an unpredictable process with no drive to complexity, not the expected results of evolutionary principles that yearn to produce a creature capable of understanding the mode of its own necessary construction.”

(7)

RESUMO

Nos últimos anos, os neoantígenos têm gerado grande interesse na imunoterapia devido à sua capacidade de desencadear respostas imunológicas antitumorais. Os neoantígenos surgem como consequências de mutações somáticas especificas e podem ser apresentados, pelas moléculas de HLA, na superfície das células tumorais e reconhecidos pelas células T como moléculas não-próprias. Diversos estudos indicaram resultados promissores quanto ao uso dos neoantígenos em diferentes abordagens imunoterapêuticas. No entanto, a identificação precisa dos neoantígenos ainda permanece um desafio. Portanto, o objetivo do presente trabalho foi desenvolver uma ferramenta computacional que integre análises imunogenômicas individuais, porém, fundamentais para a identificação de potenciais neoantígenos. Foram utilizados dados de RNA-seq do projeto GEUVADIS e dados de mutações somáticas provenientes de melanoma do projeto TCGA para auxiliar na validação do pipeline desenvolvido. Como resultado, obteve-se a ferramenta, denominada neoANT-HILL, desenvolvida na linguagem de programação Python e, disponível por meio de uma interface gráfica amigável e interativa. A ferramenta utiliza dados provenientes do sequenciamento genômico ou exômico e/ou dados de RNA-Seq para a execução das análises imunogenômicas disponíveis. A integração dos resultados auxiliam na identificação precisa de potenciais neoantígenos candidatos à imunoterapia.

Palavras-chave: neoantígenos; câncer; mutações somáticas; células T; moléculas de HLA; análises imunogenômicas.

(8)

ABSTRACT

In recent years, neoantigens have generated great interest in immunotherapy due to its ability to elicit antitumor immune responses. Neoantigens arise from specific somatic mutations and it can be present by HLA molecules on the surface of tumor cells and recognized by T cells as non-self molecules. Several studies have indicated promising results in the use of neoantigens in different immunotherapeutic approaches. However, the precise identification of neoantigens remains challenging. Therefore, the aim of the present work was developing a computational tool that integrates the individual immunogenetics analyses, which are fundamental for the identification of potential neoantigens. RNA-seq data from GEUVADIS project and melanoma mutation data obtained from the TCGA to validate the developed pipeline. As a result, we developed a tool, called neoANT-HILL, in Python programming language and available through a friendly and interactive graphical user interface. Data from the whole genome or exome sequencing and/or RNA-Seq data are used for performing the immunogenomic analyzes. The integration of the results allows the identification of potential neoantigens candidates for immunotherapy.

Keywords: neoantigens; cancer; somatic mutations; T cells; HLA molecules; immunogenomics analyses.

(9)

LISTA DE FIGURAS

Figura 1. Reconhecimento dos neoantígenos pelas células T do sistema imunológico……… 10 Figura 2. Alterações somáticas na sequência de DNA que podem levar à geração de neoantígenos ……… 11 Figura 3. Estrutura gênica do Complexo Maior de Histocompatibilidade (MHC)…… 12

Figura 4. Processamento e apresentação dos neoantígenos pelas moléculas de MHC da classe I……….. 13 Figura 5. Taxa de mutação tumoral e a formação de neoantígenos……….. 16

(10)

SUMÁRIO

1 INTRODUÇÃO ………..………... 10

1.1. CÂNCER ………..………. 10

1.1.1. Mutações somáticas ………,,………... 11

1.2. NEOANTÍGENOS E O SISTEMA IMUNOLÓGICO ………... 12

1.2.1. Apresentação e processamentos dos neoantígenos ……..……… 12

1.2.2. Microambiente tumoral ………...………...…. 14

1.2.3. Infiltrado linfocitário ………. 15

1.3. NEOANTÍGENOS E TAXA DE MUTAÇÃO TUMORAL ……...……… 15

1.4. IMUNOTERAPIA ………..…….……….. 16

1.4.1. Neoantígenos na imunoterapia …...……….. 16

1.4.1.1. Estratégias para identificação dos neoantígenos ………..……….. 18

1.4.1.2. Algoritmos de predição da afinidade de ligação …………...……….18

1.5. JUSTIFICATIVA DO ESTUDO ….………. 19 2 OBJETIVOS ……….. 21 2.1. GERAL ………21 2.2. ESPECÍFICOS ……….……… 21 3 CAPÍTULO I ……….. 22 4 DISCUSSÃO ………. 40 5 CONCLUSÃO ………..;… 44 REFERÊNCIAS ………..………. 45 APÊNDICE A APÊNDICE B APÊNDICE C APÊNDICE D APÊNDICE E APÊNDICE F

(11)

1 INTRODUÇÃO 1.1. CÂNCER

O câncer é uma doença genética caracterizada pela aquisição múltiplas mutações no DNA, pelas células somáticas, que promovem o crescimento e divisão celular descontrolados (VESELY et al., 2011). Quaisquer alterações que resultem na produção de um produto proteico alterado, seja a alteração de um único nucleotídeo (SNVs, do inglês Single Nucleotide Variants), alterações no quadro de leitura (inserções e deleções), ou fusões de genes, podem levar à produção de novos peptídeos antigênicos (neoepítopos) que possam ser reconhecidos pelas células T como moléculas não-próprias (Figura 1) (TURAJLIC et al., 2017). Esses neoepítopos, em particular, são denominados de neoantígenos. Os neoantígenos são ausentes em tecidos saudáveis, e portanto, estimulam respostas exclusivamente antitumorais pelas células T do sistema imunológico. Essas características torna os neoantígenos altamente atraentes como alvos imunoterapêuticos (HACOHEN et al., 2013; HEEMSKERK et al., 2013).

Adaptado de Hackl et al., 2016

(12)

1.1.1. Mutações somáticas

Como descrito na seção anterior, os neoantígenos são gerados a partir de quaisquer mutação genômica que resulte em alterações na sequência de aminoácidos, incluindo mutações não-sinônimas, retenção de íntrons, fusões gênicas e as variantes indel (Figura 2) (HUTCHISON, S.; PRITCHARD, A, 2018.). As mutações não-sinônimas do tipo missense resultam em substituições não conservadoras na sequência de aminoácidos devido a alterações na trinca de nucleotídeos (Figura 2A) (REISNER, 2015). Essas mutações pontuais podem afetar diretamente os sítios de interação entre peptídeo e o receptor de células T (TCR, do inglês T Cell Receptor) ou ainda gerar novos resíduos âncora que promovam a ligação entre o peptídeo alterado às moléculas do complexo MHC (do inglês Major Histocompatibility Complex) (RIAZ et al., 2016).

Já as mutações frameshift, caracterizadas pela inserção e/ou deleção de nucleotídeos, promovem a alteração do quadro de leitura a partir do ponto da mutação e, consequentemente, produzem uma cadeia polipeptídica distinta da original, tanto pelo sua composição quanto pelo número de aminoácidos (Figura 2B) (SCHAAF, C. P.; ZSCHOCKE, J.; POTOCKI, L, 2012). Portanto, esse tipo de mutação pode produzir neoepítopos totalmente distintos daqueles caracterizados como próprios e que podem ser reconhecidos pelas células do sistema imunológico, isto é, neoantígenos (TURAJLIC et al., 2017). Já as mutações do tipo inframe são caracterizadas inserção e/ou deleção de nucleotídeos em números múltiplos de três que, consequentemente, resultam na alteração da cadeia polipeptídica original (SCHAAF, C. P.; ZSCHOCKE, J.; POTOCKI, L, 2012). Outros tipos de mutações tais como splice site e fusão gênica também podem originar potenciais neoantígenos pois também promovem alterações na sequência polipeptídica original (Figura 2C).

Figura 2. Alterações somáticas na sequência de DNA que podem levar à geração de neoantígenos.

(13)

1.2. NEOANTÍGENOS E O SISTEMA IMUNOLÓGICO 1.2.1. Apresentação e processamentos dos neoantígenos

Analogamente a outros antígenos, os neoantígenos são apresentados pelas moléculas do complexo principal de histocompatibilidade na superfície da célula tumoral. Nos humanos, os genes do complexo MHC são altamente polimórficos e constituem o sistema de antígenos leucocitários humanos (HLA, do inglês Human

Leukocyte Antigen). Os genes responsáveis pela codificação dessas moléculas estão

localizados em clusters no braço curto do cromossomo 6 (6p21.3). As moléculas de HLA são subdivididas em três grupos: HLA da classe I, HLA da classe II e HLA da classe III. Cada classe de HLA é codificada por um cluster gênico específico, sendo que o mais distante do centrômero corresponde aos genes responsáveis pelas moléculas de HLA classe I e o mais próximo está relacionado aos genes responsáveis pelas moléculas de HLA da classe II (GOLDBERG; RIZZO, 2014) (Figura 3). É importante ressaltar que os genes relacionados às moléculas de HLA da classe III não desempenham nenhum papel relacionado à apresentação de antígenos (APOSTOLOPOULOS et al., 2008).

Figura 3. Estrutura gênica do Complexo Maior de Histocompatibilidade (MHC).

Adaptado de SCISCO GENETICS (2019).

Durante o processo de iniciação e progressão do câncer, as moléculas de HLA de classe I são responsáveis pela apresentação dos neoantígenos, reconhecidos como moléculas estranhas pelos linfócitos T CD8+, por meio da interação com a molécula de interação correspondente, o receptor de células T (TCR, do inglês T cell

(14)

citocinas, culminando na lise das células tumorais (GARRIDO et al., 2012) (GARCIA-LORA; ALGARRA; GARRIDO, 2003). Portanto, essas moléculas desempenham um papel crucial na eliminação das células tumorais. As moléculas de MHC da classe I compreendem as moléculas clássicas A, B C e as não clássicas

HLA-E, HLA-F, HLA-G. Expressam-se em todas as células nucleadas na superfície celular

como heterodímeros constituídos por uma cadeia α pesada e uma cadeia invariável de β2–microglobulina ligados não-covalentemente. Essas moléculas apresentam um

sítio de ligação fechado, o que permite a ligação de antígenos pequenos com cerca de 8-11 aminoácidos (GOLDBERG; RIZZO, 2014; KOŞALOĠLU, 2016).

Os neoantígenos são gerados a partir da degradação, pelo proteassomo, da sequência proteica alteradas. Em seguida, os mesmos são transportados para o lúmen do retículo endoplasmático (ER, do inglês Endoplasmatic Reticulum) pelas proteínas transportadoras associadas ao processamento de antígenos -1 e -2 (TAP-1/TAP-2, do inglês Transporter associated with antigen processing). O dobramento e montagem das moléculas de MHC compreendem a associação das cadeias α à cadeia de β2–microglobulina e, posteriormente, ligação ao neoantígeno. Esse

processo envolve diversas proteínas acessórias, tais como calnexina, calreticulina e tapasina. Portanto, qualquer defeito em quaisquer uma dessas etapas ou componentes impedirá a expressão das moléculas de HLA de classe I, e, consequentemente, a apresentação dos neoantígenos na superfície celular (Figura 4) (GARCIA-LORA; ALGARRA; GARRIDO, 2003).

Figura 4. Processamento e apresentação dos neoantígenos pelas moléculas de MHC da classe I.

(15)

Já as moléculas de MHC da classe II (HLA-DR, -DB, -DQ) também se expressam na superfície celular, no entanto, restringem-se, predominantemente, às células apresentadoras de antígenos (APCs, do inglês Antigen Presenting Cells) tais como células B, macrófagos e células dendríticas, e, são responsáveis pela apresentação de antígenos exógenos aos linfócitos T CD4+ auxiliares. Assim como a classe I, as moléculas de MHC de classe II também se apresentam como heterodímeros constituídos por duas cadeias α e β, associadas por ligações não-covalentes. O sítio de ligação dessas moléculas é aberto, ao contrário das moléculas de MHC classe I, permitindo a ligação de peptídeos mais longos com cerca de 13-18 aminoácidos, ou mesmo da proteína inteira (GOLDBERG; RIZZO, 2014; KOŞALOĠLU, 2016). O processamento e apresentação dos neoantígenos, via MHC de classe II, segue etapas semelhantes ao das moléculas da classe I.

De acordo com Sun et al. (2016), estudos clínicos baseados no uso de neoantígenos restritos às moléculas de MHC da classe I mostraram evidências de efeitos terapêuticos, porém, as respostas imunológicas ainda eram transitórias e muita fracas para eliminar por completo as células tumorais na maioria dos pacientes. No entanto, evidências sugerem que as células T CD4+ do subtipo Th1 apresentam potente atividade antitumoral (KREITER et al., 2015) e altas densidades desse substipo celular no microambiente tumoral foram fortemente correlacionadas com bom prognóstico em quase todos os tipos de tumores (SUN et al., 2016). Isto mostra a necessidade de estudos mais aprofundados em relação aos neoantígenos apresentados pelas moléculas de classe II às células T auxiliares a fim de potencializar os efeitos da terapia.

1.2.2. Microambiente tumoral

À medida que os tumores crescem, ocorrem diversas mudanças moleculares, físicas e celulares no respectivo tecido. O microambiente tumoral emerge compreendendo diferentes tipos celulares, incluindo fibroblastos, adipócitos, células endoteliais e epiteliais. Os linfócitos também se infiltram nesse microambiente com a finalidade de combater à progressão do tumor (KANG; KIM; YUN, 2017). Embora essas células não sejam consideradas malignas, a interação das mesmas entre si e com as células tumorais, bem como a interação com os demais componentes do

(16)

ambiente tumoral, resultam na aquisição de um fenótipo anormal e em alterações permanentes na função celular (LI; FAN; HOUGHTON, 2007).

1.2.2.1. Infiltrado Linfocitário

Diversos estudos têm relatado uma correlação entre o tipo e densidade do infiltrado linfocitário (TILs, do inglês Tumor-Infiltrating Lymphocytes) e a sobrevida do paciente (SCHREIBER; OLD; SMYTH, 2011) (GOODEN et al., 2011). Isto sugere que os linfócitos são eficientes em retardar a progressão do tumor, apesar de serem antagonizados por todos os fatores presentes no ambiente hostil onde se encontram. No entanto, faz-se necessário a distinção entre os tipos de linfócitos, pois, cada um deles desempenham funções distintas no microambiente tumoral (GOODEN et al., 2011). Como já mencionado na seção 1.2, os linfócitos citotóxicos T CD8+ (CTLs, do inglês Cytotoxic T Lymphocytes) atuam diretamente na morte das células tumorais.

Já os linfócitos T CD4+ se diferenciam em subtipos específicos, dependendo das citocinas presentes no ambiente. Os linfócitos auxiliares do tipo 1 (Th1) apresentam um papel crucial na ativação dos CTLs. Enquanto que as células do tipo 2 (Th2) estimulam a imunidade humoral e os eosinófilos. Portanto, em termos de imunidade antitumoral, a ativação de Th2 é menos efetiva que a ativação de Th1 (YU; FU, 2006). Além desses subtipos, existem os linfócitos T reguladores CD4+ (Treg), que se expressam naturalmente e são responsáveis pela supressão dos CTLs. Esse subtipo de linfócitos, em contrapartida, foi associado a um mau prognóstico em alguns tipos de câncer (SHAH et al., 2011). Nos últimos anos, diversos estudos têm considerado a taxa de proporção entre os diferentes subconjuntos como marcadores de prognóstico (SUZUKI et al., 2009) (GOODEN et al., 2011). Geralmente as relações entre CD8+/FOXP3+ (Treg) e CD8+/CD4+ são as mais estudadas. No entanto, o microambiente tumoral é bastante complexo e envolve diversos outros componentes (GOODEN et al., 2011).

1.3. NEOANTÍGENOS E A TAXA DE MUTAÇÃO TUMORAL

Um estudo de Simpson et al. (2017) mostrou que a carga de mutação tumoral aumenta a apresentação de neoantígenos que estimulam o reconhecimento tumoral pelas células imunológicas. Além disso, a taxa de mutação pode representar uma estimativa da carga de neoantígenos presente no tumor (Figura 5) (CHAN et al., 2018).

(17)

No entanto, é importante ressaltar que nem todas as mutações genômicas irão gerar neoantígenos. Apenas uma pequena fração de mutações irão gerar peptídeos que serão adequadamente processados e apresentados pelas moléculas de MHC às células T. Ou seja, nem todos os neoepítopos podem ser considerados imunogênicos.

Adaptado de SCHUMACHER; SCHREIBER, 2015.

1.4. IMUNOTERAPIA

Nas últimas décadas, a compreensão mais detalhada sobre o papel do sistema imunológico no desenvolvimento e progressão tumoral possibilitou o desenvolvimento de várias abordagens imunoterapêuticas contra o câncer. Conceitualmente, a imunoterapia do câncer é projetada para estimular as células imunes do hospedeiro que exibem atividades antitumorais e, ao mesmo tempo, inibir os demais componentes do sistema imunológico responsáveis pela promoção da tumorigênese (WANG; WANG, 2017).

1.4.1. Neoantígenos na imunoterapia

Os neoantígenos são provavelmente os alvos mais interessantes e atraentes para diversas abordagens imunoterapêuticas, pois, além de desencadearem

(18)

respostas imunes tumor-específicas, essas moléculas não estão sujeitas à seleção tímica e à tolerância central (WIRTH; KUHNEL, 2017) (EFREMOVA et al., 2017). Riaz

et al. (2016) sugerem que os neoantígenos podem levar a respostas a uma ampla

classe de imunoterapias. Diversos estudos mostraram que as respostas à terapias imunomediadas, principalmente a terapia com inibidores de checkpoint, estão correlacionadas com a taxa de mutação tumoral, assim como a carga neoantigênica (YARCHOAN et al., 2017) (HUTCHISON, S.; PRITCHARD, A. L., 2018). Além disso, mostrou-se também que as vacinas terapêuticas utilizando neoantígenos são capazes de induzir respostas antitumorais robustas em camundongos (CASTLE et al., 2012). Estudos pré-clínicos em humanos também se mostraram promissores quanto ao uso dos neoantígenos no desenvolvimento de vacinas antitumorais (LI, GOEDEGEBUURE, GILLANDERS, 2017) e na terapia de células T adaptadas (YADAV, M.; DELAMARRE, L., 2016) (Figura 6). Esta abordagem envolve a transferência direta de células T específicas para neoantígenos.

Adaptado de YADAV, M.; DELAMARRE, L., 2016 Figura 6. Estratégias imunoterapêuticas com neoantígenos.

(19)

1.4.1.1. Estratégias para identificação dos neoantígenos

Os neoantígenos podem ser determinados experimentalmente através de análises proteômicas dos neoepítopos ligantes de MHC por cromatografia líquida e espectrometria de massa em tandem. No entanto, esta abordagem é laboriosa e requer uma grande quantidade de material. Com o advento das técnicas de Sequenciamento de Nova Geração (NGS, do inglês Next Generation Sequencing), os potenciais neoantígenos podem ser identificados alternativamente pelo processamento in silico dos dados e por meio da integração de diversas etapas, incluindo a predição das variantes, a tradução das proteínas mutadas, reconhecimento do tipo específico de HLA, estimativa da abundância dos transcritos e a predição da afinidade de ligação entre as moléculas de HLA e os neoepítopos (do complexo p:HLA) (EFREMOVA et al., 2017). Existem diversas ferramentas computacionais que realizam essa predição de afinidade de ligação (BRENNICK et

al., 2017). Essas ferramentas consideram as características físico-químicas, tais como

polaridade e afinidade, e a composição da sequência de aminoácidos para determinar a antigenicidade do complexo p:HLA (TAREK et al., 2018). Por exemplo, sabe-se que as sequências que possuem resíduos hidrofóbicos nas posições âncoras P2 e C-terminal formam complexos p:HLA mais estáveis (RUPPERT et al., 1993).

1.4.1.2. Algoritmos de predição da afinidade de ligação

Dentre os algoritmos de predição de afinidade de ligação, podemos destacar aqueles que estão disponíveis no Banco de Dados de Epitopos Imunológicos (IEDB, do inglês Immune Epitope Database and Analysis Resource) (Vita et al., 2014). O IEDB consiste em um banco de dados gratuito que contém uma extensa coleção de epítopos de células T e um conjunto de ferramentas para predição e análise dos epitopos (FLERI et al., 2017). As ferramentas disponíveis para as moléculas de MHC da classe I disponibilizadas pelo IEDB permitem que múltiplos alelos e tamanhos (9-14) sejam especificados. Podemos destacar as ferramentas NetMHC/ANN (LUNDEGAARD et al., 2008) (NIELSEN et al., 2003), NetMHCpan (NIELSEN et al., 2007), SMMPMBEC (KIM et al., 2009) e SMM (PETERS; SETTE, 2005).

O NetMHC é um dos programas de predição de afinidade de ligação mais utilizados. Esta ferramenta se baseia em redes neurais artificiais (ANN, do inglês

(20)

conectadas em uma rede de comunicação (WARD; GUBIN; SCHREIBER, 2016). O

NetMHC foi desenvolvido para alelos comuns, enquanto que o NetMHCpan foi

desenvolvido para abranger os alelos raros. Já os métodos SMM e SMMPMBEC calculam matrizes a partir de dados de afinidade quantitativa dos peptídeos que se ligam às moléculas de MHC (WARD; GUBIN; SCHREIBER, 2016). Outras ferramentas disponíveis para a classe I são PickPocket (ZHANG, LUND, NIELSEN, 2009), NetMHCcons (KAROSIENE et al., 2012), NetMHCstabpan (RASMUSSEN et

al., 2016), Consensus (MOUTAFTSI et al., 2006), MHCflurry (O'DONNELL et al., 2018) e MHCnuggets (BHATTACHARYA, et al., 2017). Esses algoritmos empregam diferentes modelos de predição, mas, todos foram treinados com combinações de neoepítopos/HLA caracterizados, a fim de prever a probabilidade de uma sequência curta de peptídeos se ligaram a um alelo de HLA específico (HUTCHISON, S.; PRITCHARD, A. L., 2018).

As ferramentas para a predição da classe II não apresentam um desempenho tão eficiente, se comparados aos algoritmos das classe I, apesar de estarem melhorando gradativamente. Isto é influenciado pela natureza polimórfica das moléculas de HLA-II, variações no comprimento do peptídeo e à escassez de dados para a validação (JENSEN et al., 2017). O IEDB também disponibiliza métodos para a predição de ligação às moléculas da classe II, incluindo NetMHCIIpan (NIELSEN et

al., 2010), SMM-align (NIELSEN; LUNDEGAARD; LUND, 2007), NN-align (NIELSEN;

LUND, 2009), Combinatorial Library (SIDNEY et al., 2008), Sturniolo (STURNIOLO et

al., 1999) e Consensus (WANG et al, 2008) (WANG et al, 2010). Esses algoritmos

analisam sequências com 15 aminoácidos para cada alelo HLA especificado. O método MHCnuggets também permite a predição de afinidade de ligação as moléculas de MHC da classe II.

1.5. Justificativa do estudo

Conforme discutido anteriormente, sabe-se que o sistema imunológico desempenha um papel crítico na progressão do tumor bem como na resposta à terapia. Diversos estudos mostram que uma alta densidade de infiltrado linfocitário no tumor está diretamente correlacionada com a taxa de mutação (SIMPSON et al., 2017) (OWADA et al., 2017). No entanto, a presença de uma variante somática no tecido tumoral não resulta, necessariamente, no desencadeamento de respostas

(21)

imunológicas. Deve-se considerar, principalmente, o tipo de substituição e a habilidade dessa sequência variante se ligar a um dos alelos HLA do paciente. Por isso, faz-se necessário a identificação precisa dos neoantígenos (BUUREN, 2016), para que os mesmos possam ser utilizados efetivamente nas diversas estratégias de imunoterapia.

Diversos abordagens foram implementadas, tais como pVAC-Seq (Hundal et

al., 2016), MuPeXI (Bjerregaard et al., 2017), TIminer (Tappeiner et al., 2017) e

TSNAD (Zhou et al., 2017), para a identificação de potenciais neoantígenos. Esses algoritmos levam em consideração as diversas etapas de processamento e apresentação de antígenos (por exemplo, clivagem proteassomal e predição da afinidade de ligação com as moléculas de MHC). Embora essas técnicas tenham se mostrado úteis na identificação de potenciais neoantígenos, ainda existe uma necessidade de melhorar essas abordagens, uma vez que a maioria desses candidatos parecem ser falso-positivos (BUUREN, 2016). Além disso, nenhuma das ferramentas mencionadas considera dados de sequenciamento do transcriptoma tumoral (RNA-seq) para a identificação de mutações somáticas. Além disso, apenas uma dessas ferramentas caracteriza quantitativamente a fração de células imunológicas que se infiltram no tumor.

No presente projeto propomos uma ferramenta versátil disponibilizada com uma interface gráfica de usuário (GUI), chamada de neoANT-HILL, projetada para identificar potenciais neoantígenos decorrentes de mutações somáticas tumorais, incluindo as mutações missense, frameshift e inframe. O neoANT-HILL integra vários diversas etapas, incluindo a predição in silico das variantes, predição da afinidade de ligação entre o complexo p:HLA e a tipagem individual dos alelos de HLA. A tipagem dos alelos HLA é uma etapa fundamental nesse processo porque cada paciente apresenta uma haplótipo único, visto que esses genes são altamente polimórficos (BUUREN, 2016). Além disso, o neoANT0HILL também inclui os recursos complementares, tais como a identificação de variantes a partir de dados do transcriptoma do tumor e a quantificação do infiltrado linfocitário. Estes recursos fornecem versatilidade ao usuário quanto ao dado de entrada e uma perspectiva sobre o prognóstico do paciente, respectivamente. Os potenciais neoantígenos são priorizados com base na afinidade de ligação prevista e nos níveis de expressão de mRNA.

(22)

2 OBJETIVOS

2.1. GERAL

▪. Desenvolver uma ferramenta computacional capaz de identificar potenciais neoantigenos a partir da integração de dados de sequenciamento de nova geração que possam ser utilizados como alvos na imunoterapia.

2.2. ESPECÍFICOS

▪. Identificar mutações somáticas específicas de amostras tumorais; ▪. Realizar a tipagem in silico das moléculas de MHC;

▪. Estimar a abundância de transcritos na amostra tumoral;

▪. Realizar a predição da afinidade de ligação do complexo p:MHC; ▪. Identificar e classificar potenciais neoantígenos;

▪. Integrar todas as etapas supracitadas em uma ferramenta computacional de uso facilitado.

(23)

CAPÍTULO I

neoANT-HILL: an integrated tool for identification of potential neoantigens

Escrito por: Ana Carolina Miranda Fernandes Coêlho, André Luiz Fonseca Faustino, Danilo Lopes Martins, Paulo Roberto Branco Lins, Lucas Marques da Cunha e

Sandro José de Souza

(24)

Page 1 of 17

neoANT-HILL: an integrated tool for identification of potential neoantigens

Ana Carolina M F Coelho1, André L Fonseca1, Danilo L Martins1, Lucas M da Cunha1,2, Paulo B R Lins1, Sandro J de Souza 1,3*

1. Bioinformatics Multidisciplinary Enviroment (BioME), Institute Metropolis Digital, Federal University of Rio Grande do Norte, UFRN, Brazil

2. PhD Program in Bioinformatics, UFRN, Natal, Brazil

3. Brain Institute, Federal University of Rio Grande do Norte, UFRN, Brazil

*Corresponding author: sandro@neuro.com.br

Abstract

Cancer neoantigens have attracted great interest in immunotherapy due to their ability to elicit antitumoral immune responses. These antigens are formed due to somatic mutations in the cancer genome that result in alterations of the original protein. Although current technological advances in neoantigen identification, it remains a challenging and a large number of false-positive continue to exist. In the current work, we present neoANT-HILL, an automatized user-friendly tool that integrates several immunogenomic analysis to improve neoantigens detection from NGS data. The program input can be a file with somatic mutations called and/or RNA-seq data. Our tool was applied on somatic mutations of melanoma dataset from TCGA and found that neoANT-HILL was able to predicted potential neoantigens. The software is available on github at https://github.com/neoanthill/neoANT-HILL.

Keywords: neoantigens, cancer, immunogenomic analysis

1 Introduction

Recent studies have demonstrated that T cells can recognize tumor-specific antigens that bound to the human leukocyte antigens (HLA) molecules at the surface of tumor cells (Efremova et al., 2017; Kato et al., 2018). During tumor progression, accumulating somatic mutations in the tumor genome can affect protein-coding genes and result in mutated peptides (Efremova et al., 2017). These mutated peptides, which are present in the malignant cells but not in the normal cells, may act as neoantigens and trigger T-cell responses due to the lack of thymic elimination of autoreactive T-cells (central tolerance) (Snyder et al., 2014; Bailey et al., 2016; Riaz et al., 2016). As result, these neoantigens appear to represent ideal targets attracting great interest for cancer

(25)

Page 2 of 17

immunotherapeutic strategies, including therapeutic vaccines and engineered T cells (Lu; Robbins, 2016; Efremova et al., 2017).

In the last years, advances in next-generation sequencing have provided an accessible way to generate patient-specific data, which allows the prediction of tumor neoantigens in a rapid and comprehensive manner (Liu; Mardis, 2017). Several approaches have been developed, such as pVAC-Seq (Hundal et al., 2016), MuPeXI (Bjerregaard et al., 2017), TIminer (Tappeiner et al., 2017) and TSNAD (Zhou et al., 2017), which performs prediction of potential neoantigens produced by non- synonymous mutations. However, none of these proposed tools considers tumor transcriptome sequencing data (RNA-seq) for identifying somatic mutations. Moreover, only one of these tools provides quantification of the fraction of tumor- infiltrating immune cells types.

Here we are presenting a versatile tool with a graphical user interface (GUI), called neoANT-HILL, designed to identify potential neoantigens arising from cancer somatic missense mutations, frameshift and small indels. neoANT-HILL integrates several complementary features to prioritizing mutant peptides based on predicted binding affinity and mRNA expression level levels. We used datasets from GEUVADIS RNA sequencing project (Lappalainen et al., 2013) to demonstrate that RNA-seq is also a potential source of mutation detection. Finally, we applied our pipeline on a large melanoma cohort from The Cancer Genome Atlas (Weinstein et al., 2013) to demonstrate its utility in predicting and suggesting potential neoantigens.

2 Material and Methods

RNA-seq data processing

We obtained RNA-seq samples (n=15) from the GEUVADIS RNA sequencing project to identifying frameshift, indels and point mutations. Raw RNA-seq reads were mapped with STAR aligner (version 2.6.0) (Dobin, et al., 2013) in two-pass mapping protocol against the human reference genome version GRCh37. Mapped reads were processed according to GATK best practices (DePristo et al., 2011; Van der Auwera et al., 2013). Mutect2 (Cibulskis et al., 2013) was used to identifies frameshift, missense mutations and small indels. We limited our analysis to variants that presented a read depth (DP) >= 10 and were supported by at least five reads. Our results were validated by comparing the corresponding genotype provided by 1000 Genomes Project Consortium (1KG) (1000 Genomes Project Consortium et al., 2015). Bcftools isec was used to determine the intersection between the variant sets.

(26)

Page 3 of 17

Melanoma dataset

We applied neoANT-HILL on a large melanoma cohort (SKCM, n = 466) obtained from The Genome Cancer Atlas (TCGA) to identifying potential neoantigens. Expression levels (FPKM) from corresponding samples were also obtained. All missense mutations, frameshift and small indels were extracted. The mutant sequences were inferred and reported with its corresponding wild-type sequence. Our analysis was limited to HLA class I molecules. We used a set of HLA molecules that were within the most frequent alleles collected in the 1KG Project, including A*02:01,

HLA-A*11:01, HLA-A*24:02, HLA-B*07:02, HLA-B*15:01, HLA-C*06:02 and HLA-C*07:02.

The binding affinity prediction was run using ANN algorithm (v. 4.0 aka NetMHC) provided by IEDB for lengths 8-, 9-, 10- and 11-mer. We selected mutant peptides which its matched normal peptide showed a predicted binding affinity >= 500 nM. We also consider only the mutant peptides with the lowest predicted IC50 per HLA allele to avoid overlapping candidates differing by the length.

3 Results

neoANT-HILL overview and availability

neoANT-HILL is a user-friendly integrated tool for the identification of potential neoantigens that could be used in personalized immunotherapy (Figure 1). Our pipeline relies on VCF file (single- or multisample) or tumor transcriptome sequence data (RNA-seq) in which somatic mutation calling will be performed following GATK best practices with Mutect2. In the current implementation, neoANT-HILL supports VCF files generated using the human genome version GRCh37. Other human genome version must be converted to version GRCh37. A list of HLA alleles should also be provided. At first, the variants are properly annotated by snpEff (Cingolani et al., 2012). The next step is identifying non-synonymous mutations (missense mutations, frameshift and indels) and infers the resulting mutant sequence. The protein sequence changes are inferred from the NCBI Reference Sequence database (RefSeq) (O'Leary

et al., 2016). For frameshift mutations, the mutant sequence is inferred by translating

the cDNA sequence. Each alteration is translated into a 21-mer sequence where the altered point is at the center. If the mutation is at the beginning or the end of the transcript, the mutant sequence is built by taking the 20 succeeding or preceding amino acids, respectively. The translated mutant sequences and its wild-type corresponding sequence are stored in a FASTA file.

(27)

Page 4 of 17

The subsequent step is binding affinity prediction between the peptides and HLA alleles. neoANT-HILL supports seven HLA class I molecules algorithms provided by Immune Epitope Database (IEDB) (VITA et al., 2015), including NetMHC (v. 4.0) (Andreatta; Nielsen, 2016; Nielsen et al., 2003), NetMHCpan (v. 4.0) (Jurtz et al., 2017), NetMHCcons (Karosiene et al., 2012), NetMHCstabpan (Rasmussen et al., 2016), PickPocket (Zhang; Lund; Nielsen, 2009), SMM (Peters; Sette, 2005) and SMMPMBEC (Kim et al., 2009) and MHCflurry (O'Donnell et al., 2018). Each peptide sequence is parsed with a sliding window metric. The algorithm also allows the prediction of binding affinity for HLA class II through four IEDB-algorithms NetMHCIIpan (v. 3.1) (Karosiene

et. al, 2013), NN-align (Nielsen; Lund, 2009), SMM- align (Nielsen; Lundgaard; Lund,

2007) and Sturniolo (Sturniolo et al., 1999). It can be executed on parallel single or multi-sample using parallelization with the custom configured parameters. The binding affinities are predicted to both mutated and normal peptides. The differential agretopicity index (DAI) (Ghorani et al., 2018 ) is also reported, which represent the fold change between normal and mutated peptides binding affinities.

Moreover, if raw RNA-seq data is available (in FASTQ format), neoANT-HILL pipeline can perform complementary analyses. Our algorithm uses Optitype (Szolek et al., 2014) to infers class-I HLA molecules. The data can also be used to estimate gene and transcript level expression, which is reported in transcripts per million (TPM), using Kallisto (Bray et al., 2016). Genes are considered to be expressed if they show an abundance level of at least 1 TPM. In addition, neoANT-HILL also offers the possibility of estimating quantitatively, via deconvolution, the relative fractions of tumor-infiltrating immune cell types through the use of quanTIseq (Finotello et al., 2017).

Our software was developed under a pre-built Docker image. The required dependencies are packaged up which simplifying the installation process and avoid possible incompatibilities between versions. It can be installed on Unix/Linux, Mac OS, and Windows operating systems. neoANT-HILL was designed through a user graphical interface (Figure 2) implemented on Flask framework. As previously described, several analyses are supported and each one relies on different tools. Several scripts were implemented on Python (v. 2.7) to complete automating the execution of these single tools and data integration. The results of each analysis are stored in separate tabs on the sample-specific folder. They are shown in tabular or graphical forms that let the user manage the data based on their own selection criteria.

(28)

Page 5 of 17

Non-synonymous mutations identification on RNA-seq

We evaluate the utility of RNA-seq for identifying frameshift, indels and point mutations. We used samples from the GEUVADIS project since for those samples a reference genome was available through the 1K Genome project. Although these samples are not derived from tumor cells, the goal of these analysis was to benchmark the efficiency of our pipeline to detect somatic mutations from RNA-Seq data. Mutect2 was performed on tumor-only mode without distinction between somatic and germline variants. The overall called variants were then compared to the corresponding genotypes. We found that on average 72% of variants in coding regions detected by RNA-seq were confirmed by the genome sequencing (concordant calls) (Supplementary Table1). Variants in genes that are not expressed cannot be detected by RNA-seq. Mapping mismatches and RNA editing sites could partially explain discordant calls.

Predicted potential neoantigens on melanoma

We found approximately 198,000 records of predicted mutant peptides in the SKCM dataset from the TCGA project. It is important to note that the large amount of mutant peptides is due to the high mutational burden of melanoma and the set of HLA alleles that was used to run the binding prediction. Moreover, these mutant peptides were classified as strong (IC50 < 50 nM), intermediate (IC50 >= 50 nM and < 250 nM) and weak binder (IC50 >= 250 nM and < 500 nM) (Supplementary Table 2). We decided to focus on expressed mutant peptides classified as strong binders to further evaluation as potential neoantigens.

We observed that the distribution of the majority of strong binders mutant peptides are private and unique, which demonstrates the intratumor heterogeneity. However, we observed that frequent mutations may be likely to generate recurrent mutant peptides (Table 1) (Figure 3). For instance, a potential neoantigen (FSGEYIPTV), which was predicted to form a complex with HLA-A*02:01 allele, was found to be shared among 17 samples (3.65%). It was generated from the P29S mutation in gene RAC1. Another mutation (P29L) in the same gene was also related to form a recurrent potential neoantigen (FLGEYIPTV) that was found in 5 samples (1.07%). As another example, we can also highlight another potential shared neoantigen (LSMIVLLPNK) related to mutation E250K in the SERPINB3 gene (Figure 3B). It was found in 6 samples (1.29%) and it was likely to form a complex with the HLA-A*11:01 allele.

(29)

Page 6 of 17

We also observed that overlapping sequences of different lengths have shown more stable binding to different alleles (Supplementary Table 3). For instance, the previous mentioned peptide FLGEYIPTV, related to P29L RAC1, was likely to strongly bind to

HLA-A*02:01. While the decameter peptide FLGEYIPTVF, which is also related to the

same mutation, have been shown to respond to HLA-A*11:01 (Figure 3A). Similarly, the peptide AQIEASLSV, from R414Q HHATL, have been shown to strongly respond to

HLA-A*02:01, while LAQIEASLSV bound to HLA-A*15:01.

Table 1. Top 20 potential shared neoantigens.

Gene Mutation Altered Peptide HLA Allele Frequency

RAC1 P29S FSGEYIPTV HLA-A*02:01 17/466

KLHDC7A E635K HTATVRAKK HLA-A*11:01 12/466

INMT S212F YMVGKREFFCV HLA-A*02:01 9/466

CDH6 S524L FLFSLAPEAA HLA-A*02:01 8/466

ZBED2 E157K GTMALWASQRK HLA-A*11:01 8/466

CRNKL1 S128F LQVPLPVPRF HLA-B*15:01 7/466

IL37 S202L FLFQPVCKA HLA-A*02:01 7/466

SERPINB3 E250K LSMIVLLPNK HLA-A*11:01 6/466

DNAJC5B E22K STTGEALYK HLA-A*11:01 6/466

MYO7B E512K MSIISLLDK HLA-A*11:01 6/466

MORC1 E878K IQNTYMVQYK HLA-A*11:01 6/466

SCN7A S445F IEMKKRSPIF HLA-B*15:01 6/466

PSG9 E404K KISKSMTVK HLA-A*11:01 6/466

RAC1 P29L FLGEYIPTV HLA-A*02:01 5/466

RAC1 P29L FLGEYIPTVF HLA-B*15:01 5/466

NUTF2 Q20K SSFIQHYYK HLA-B*11:01 5/466

KCNB2 S118L MMEEMCALL HLA-B*02:01 5/466

TRPC5 E156K MLAAHTNNYK HLA-A*11:01 5/466

(30)

Page 7 of 17

4 Discussion

Cancer immunotherapy is rapidly advancing due to the progress in the understanding of the interaction between cancer and immune cells. Neoantigens are attractive candidates because these peptides can be used to design a personalized, efficient and safer cancer immunotherapy option (Guo et al., 2018). However, accurate prediction of neoantigens remains a challenge due to multiple factors such as antigen processing, HLA binding affinity, amino acid composition and expression level of the mutant peptide that must be considered (Ghorani et al. 2017). Here we presented neoANT-HILL which covers and integrates many of these specific sub-tasks. Our tool also has the ability to explore the versatility of RNA sequencing including variant calling, in abscence of DNA sequencing data, gene expression level, inferencing of HLA type and profiling tumor-infiltrating immune cells.

Although calling variants from RNA-Seq data has been shown to be more challenging, it is a interesting alternative for genome sequencing and a large amount of tumor RNA-seq samples do not have normal matched data (Piskol; Ramaswami; Li, 2013; Coudray

et al., 2018). We applied the variant calling pipeline on RNA-seq data from GEUVADIS

and we demonstrated the feasibility of variants detection with remarkable precision. In addition, another complementary step, which is explored by neoANT-HILL, is quantifying tumor-infiltrating immune cells from RNA-seq data. It has been demonstrated that the evaluation of tumor-infiltrating lymphocytes (TILs) provides prognostic value and potential predictive information of response to immunotherapy (Gooden et al., 2011; Althobiti et al., 2018). In comparison to the previously proposed tools, they usually considers RNA-seq data to estimate gene expression level or HLA typing. Only TIminer provides the option of quantifying the tumor-infiltrating immune cells through gene set enrichment analysis (GSEA).

We have also used melanoma dataset from TCGA to demonstrate the utility of neoANT-HILL in identifying potential neoantigens. We found several predicted patient specific and shared neoantigen candidates. The use of non-patient specific HLA alleles in this analysis may have generated false positive potential neoantigens. We observed that recurrent mutations in RAC1 and SERPINB3 genes are likely to form potential neoantigens. RAC1 P29S have been described as a candidate biomarker for treatment with anti-PD1 or anti-PD-L1 antibodies (Vu et al., 2015). Mutations in SERPINB3 have also been related to response to immunotherapy (Riaz et al. 2016). Therefore, our results suggests that screening these neoantigens can be used as predictive biomarkers for immune responses and potential targets for immunotherapies.

(31)

Page 8 of 17

Our tool provides completely integrated analyses to predicting potential neoantigens candidates. neoANT-HILL is available through a user-friendly graphical interface which enables its usage by users without an advanced programming background. However, neoANT-HILL still lacks some features such as detection of mutations that arise from gene fusion, inference of HLA-class II and evaluation of similarity to known epitopes. Software availability

neoANT-HILL is hosted publicly on GitHub at https://github.com/neoanthill/neoANT- HILL and the user documentation is also available on this page.

Data availability

The RNA-Seq dataset from Geuvadis RNA sequencing project were downloaded from the ArrayExpress database (http://www.ebi.ac.uk/arrayexpress/) and this data can be accessed under the accession number E-GEUV-1. We used the individuals named NA12812, NA12749, NA20510, NA19119, NA19204, NA18498, NA12489, NA20752, NA18517, NA11992, NA19144, NA20759, NA19137, NA19257 and NA12006. The corresponding genotyping data (Phase I) were downloaded from the data portal of the 1KG Project (http://www.internationalgenome.org/). The melanoma TCGA mutation and expression data were obtained from cBIO portal by using the CGDS-R package.

Author Contributions

ACMFC, DLM and PRBL designed and carried out the implementation of the computational pipeline. LMC contributed to design the computational pipeline. ACMFC and ALF analyzed the data. ACMFC wrote the manuscript in consultation with SJS. SJS supervised the project.

Conflict of interest

(32)

Page 9 of 17

REFERENCES

1. EFREMOVA, M. et al. Neoantigens generated by individual mutations and their role in cancer immunity and immunotherapy. Frontiers in immunology, v. 8, p. 1679, 2017. doi: 10.3389/fimmu.2017.01679

2. KATO, T. et al. Effective screening of T cells recognizing neoantigens and construction of T-cell receptor-engineered T cells. Oncotarget, v. 9, n. 13, p. 11009, 2018

3. SNYDER, A. et al. Genetic basis for clinical response to CTLA-4 blockade in melanoma. New England Journal of Medicine, v. 371, n. 23, p. 2189-2199, 2014.

4. BAILEY, P. et al. Exploiting the neoantigen landscape for immunotherapy of pancreatic ductal adenocarcinoma. Scientific reports, v. 6, p. 35848, 2016.

5. RIAZ, N. et al. The role of neoantigens in response to immune checkpoint blockade.

International immunology, v. 28, n. 8, p. 411-419, 2016.

6. LU, Y.-C.; ROBBINS, P. F. Cancer immunotherapy targeting neoantigens. In:

Seminars in immunology. Academic Press, 2016. p. 22-27.

7. LIU, X. S.; MARDIS, E. R. Applications of immunogenomics to cancer. Cell, v. 168, n. 4, p. 600- 612, 2017.

8. HUNDAL, J. et al. pVAC-Seq: A genome-guided in silico approach to identifying tumor neoantigens. Genome medicine, v. 8, n. 1, p. 11, 2016.

9. BJERREGAARD, A.-M. et al. MuPeXI: prediction of neo-epitopes from tumor sequencing data. Cancer Immunology, Immunotherapy, v. 66, n. 9, p. 1123-1130, 2017.

10. TAPPEINER, E. et al. TIminer: NGS data mining pipeline for cancer immunology and immunotherapy. Bioinformatics, v. 33, n. 19, p. 3140-3141, 2017.

(33)

Page 10 of 17

11. ZHOU, Z. et al. TSNAD: an integrated software for cancer somatic mutation and tumour-specific neoantigen detection. Royal Society open science, v. 4, n. 4, p. 170050, 2017.

12. LAPPALAINEN, T. et al. Transcriptome and genome sequencing uncovers functional variation in humans. Nature, v. 501, n. 7468, p. 506, 2013.

13. WEINSTEIN, J. N. et al. The cancer genome atlas pan-cancer analysis project.

Nature genetics, v. 45, n. 10, p. 1113, 2013.

14. DOBIN, A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics, v. 29, n. 1, p. 15-21, 2013.

15. DEPRISTO, M. A. et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature genetics, v. 43, n. 5, p. 491, 2011.

16. VAN DER AUWERA, G. A. et al. From FastQ data to high‐confidence variant calls: the genome analysis toolkit best practices pipeline. Current protocols in

bioinformatics, v. 43, n. 1, p. 11.10. 1-11.10. 33, 2013.

17. CIBULSKIS, K. et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nature biotechnology, v. 31, n. 3, p. 213, 2013.

18. 1000 GENOMES PROJECT CONSORTIUM et al. A global reference for human genetic variation. Nature, v. 526, n. 7571, p. 68, 2015.

19. CINGOLANI, P. et al. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso- 3. Fly, v. 6, n. 2, p. 80-92, 2012.

20. O'LEARY, N. A. et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic acids research, v. 44, n. D1, p. D733-D745, 2015.

(34)

Page 11 of 17

21. VITA, Randi et al. The immune epitope database (IEDB) 3.0. Nucleic acids

research, v. 43, n. D1, p. D405-D412, 2014.

22. ANDREATTA, M.; NIELSEN, M. Gapped sequence alignment using artificial neural networks: application to the MHC class I system. Bioinformatics, v. 32, n. 4, p. 511-517, 2015.

23. NIELSEN, M. et al. Reliable prediction of T‐cell epitopes using neural networks with novel sequence representations. Protein Science, v. 12, n. 5, p. 1007-1017, 2003.

24. JURTZ, V. et al. NetMHCpan-4.0: Improved peptide–MHC class I interaction predictions integrating eluted ligand and peptide binding affinity data. The Journal

of Immunology, v. 199, n. 9, p. 3360-3368, 2017.

25. KAROSIENE, E. et al. NetMHCcons: a consensus method for the major histocompatibility complex class I predictions. Immunogenetics, v. 64, n. 3, p. 177-186, 2012.

26. RASMUSSEN, M. et al. Pan-Specific Prediction of Peptide–MHC Class I Complex Stability, a Correlate of T Cell Immunogenicity. The Journal of Immunology, v. 197, n. 4, p. 1517-1524, 2016.

27. ZHANG, H., LUND, O., NIELSEN, M. The PickPocket method for predicting binding specificities for receptors based on receptor pocket similarities: application to MHC-peptide binding. Bioinformatics, v. 25, n. 10, p. 1293-1299, 2009.

28. PETERS, B., SETTE, A. Generating quantitative models describing the sequence specificity of biological processes with the stabilized matrix method. BMC

bioinformatics, v. 6, n. 1, p. 132, 2005.

29. KIM, Y. et al. Derivation of an amino acid similarity matrix for peptide: MHC binding and its application as a Bayesian prior. BMC bioinformatics, v. 10, n. 1, p. 394, 2009.

(35)

Page 12 of 17

30. O'DONNELL, T. J. et al. MHCflurry: open-source class I MHC binding affinity prediction. Cell systems, v. 7, n. 1, p. 129-132. e4, 2018.

31. KAROSIENE, E. et al. NetMHCIIpan-3. 0, a common pan-specific MHC class II prediction method including all three human MHC class II isotypes, HLA-DR, HLA-DP and HLA- DQ. Immunogenetics, v. 65, n. 10, p. 711-724, 2013.

32. NIELSEN, M., LUND, O. NN-align. An artificial neural network-based alignment algorithm for MHC class II peptide binding prediction. BMC bioinformatics, v. 10, n. 1, p. 296, 2009.

33. NIELSEN, M., LUNDEGAARD, C., LUND, O. Prediction of MHC class II binding affinity using SMM-align, a novel stabilization matrix alignment method. BMC

bioinformatics, v. 8, n. 1, p. 238, 2007.

34. STURNIOLO, T. et al. Generation of tissue-specific and promiscuous HLA ligand databases using DNA microarrays and virtual HLA class II matrices. Nature

biotechnology, v. 17, n. 6, p. 555, 1999.

35. GHORANI, E. et al. Differential binding affinity of mutated peptides for MHC class I is a predictor of survival in advanced lung cancer and melanoma. Annals of

Oncology, v. 29, n. 1, p. 271-279, 2017.

36. SZOLEK, A. et al. OptiType: precision HLA typing from next-generation sequencing data. Bioinformatics, v. 30, n. 23, p. 3310-3316, 2014.

37. BRAY, N. L. et al. Near-optimal probabilistic RNA-seq quantification. Nature

biotechnology, v. 34, n. 5, p. 525, 2016.

38. FINOTELLO, F. et al. Molecular and pharmacological modulators of the tumor immune contexture revealed by deconvolution of RNA-seq data. bioRxiv, p. 223180, 2018.

39. GUO, Y., LEI, K., TANG, L. Neoantigen vaccine delivery for personalized anticancer immunotherapy. Frontiers in immunology, v. 9, p. 1499, 2018.

(36)

Page 13 of 17

40. PISKOL, R., RAMASWAMI, G., LI, J. B. Reliable identification of genomic variants from RNA-seq data. The American Journal of Human Genetics, v. 93, n. 4, p. 641-651, 2013.

41. COUDRAY, A. et al. Detection and benchmarking of somatic mutations in cancer genomes using RNA-seq data. PeerJ, v. 6, p. e5362, 2018.

42. COUDRAY, A. et al. Detection and benchmarking of somatic mutations in cancer genomes using RNA-seq data. PeerJ, v. 6, p. e5362, 2018.

43. ALTHOBITI, M. et al. Heterogeneity of tumour‐infiltrating lymphocytes in breast cancer and its prognostic significance. Histopathology, v. 73, n. 6, p. 887-896, 2018.

44. VU, H. L. et al. RAC 1 P29S regulates PD‐L1 expression in melanoma. Pigment

cell & melanoma research, v. 28, n. 5, p. 590-598, 2015.

45. RIAZ, N. et al. Recurrent SERPINB3 and SERPINB4 mutations in patients who respond to anti- CTLA4 immunotherapy. Nature genetics, v. 48, n. 11, p. 1327, 2016.

(37)

Page 14 of 17

FIGURES

Figure 1. Overall workflow of neoANT-HILL.

Figure 2. Screenshots of neoANT-HILL interface. (A) Main page of neoANT-HILL. (B) Processing tab for parameters selection to run binding prediction affinity. (C) Binding prediction results tab.

Figure 3. Distribution of recurrent missense mutations that generated potential shared

neoantigens. (A) P29S and RAC1 gene generated recurrent strong binders mutant peptides to HLA-A*02:01 and P29L generated strong binders that could respond to HLA-A*02:01 or HLA-A*11:01, depending on peptide length (B) E250K in SERPINB3 gene generate a recurrent potential neoantigen that binds to HLA-A*11:01.

(38)
(39)
(40)
(41)

4 DISCUSSÃO

Embora os neoantígenos representem uma abordagem terapêutica emergente no tratamento do câncer, uma das maiores dificuldades é a sua identificação correta (AURISICCHIO et al., 2018). O objetivo do presente estudo foi criar uma ferramenta computacional, denominada neoANT-HILL, que integra diversas etapas especificas, tais como a identificação das mutações somáticas, tradução da sequência mutada, predição de afinidade de ligação entre o peptídeo mutado e o HLA, tipagem in silico dos alelos de HLA, quantificação da abundância dos transcritos e a caracterização do infiltrado linfocitário, com a finalidade de facilitar a identificação dos neoantígenos a partir de dados genômicos e transcriptômicos. A ferramenta foi desenvolvida na linguagem de programação Python com uma interface gráfica tornando-a amigável e interativa, principalmente, para os usuários com pouco conhecimento na área de programação, pois, elimina a necessidade de interpretação e execução de comandos (APÊNDICES). Além disso, todos os dados e as dependências necessárias estão disponibilizadas em uma imagem pré-construida de um container, garantindo que o processo de instalação seja simples, assim como eliminando quaisquer possíveis conflitos de versões.

Os neoantígenos mostraram ser eficazes em estudos pré-clínicos em modelos animais (AURISICCHIO et al., 2018). Em um estudo com camundongos, mostrou-se que o uso de vacinas com os neoantígenos induzem respostas imunológicas das células T CD8+ e CD4+, garantindo uma forte resposta antitumoral (KREITER et al., 2015). Com todos esses resultados promissores, diversas outras ferramentas computacionais também foram desenvolvidas nos últimos anos. Dentre elas podemos destacar pVAC-Seq (HUNDAL et al., 2016), TIminer (TAPPEINER et al., 2017) e TSNAD (ZHOU et al., 2017). No entanto, deve-se ressaltar que nenhuma dessas ferramentas utilizam dados provenientes do sequenciamento de RNA (RNA-Seq) para identificação das mutações somáticas que possam resultar na geração de um potencial neoantígeno. Além disso, apenas uma minoria dessas ferramentas propõe a caracterização do infiltrado linfocitário no tumor.

A ferramenta neoANT-HILL, por sua vez, considera a identificação destas mutações a partir dos dados de RNA-Seq do tumor, se disponível, uma vez que o sequenciamento de RNA é uma aplicação economicamente mais viável que o sequenciamento do genoma completo (PISKOL; RAMASWAMI; LI, 2013), além de ser

(42)

utilizado como dado de entrada para que várias outras análises sejam desempenhadas pela ferramenta. Caso este dado esteja indisponível, a ferramenta neoANT-HILL irá apenas extrair as mutações somáticas de uma chamada de variante previamente realizada a partir de dados do sequenciamento do exoma ou do sequenciamento do genoma completo.

Sabe-se que a identificação de variantes somáticas em dados de RNA-Seq é mais difícil devido ao processamento do RNA, como a edição do RNA, aos níveis variáveis de expressão gênica e expressão alélica-específica (NEUMS et al., 2017). Além disso, o mapeamento de RNA-Seq é mais desafiador devido às junções de éxons. No entanto, utilizando bons parâmetros de mapeamento e com a aplicação de alguns filtros é possível a identificação correta de mutações somáticas (ATAK et al., 2013) que serão consideradas nas demais análises. Neste trabalho, dados de sequenciamento de RNA disponibilizados pelo projeto Geuvadis (LAPPALAINEN et

al., 2013) foram utilizados a fim de analisar a precisão na identificação de mutações

somáticas no dado de RNA-seq. As variantes encontradas em cada amostra foram comparadas com as suas respectivas genotipagem realizada pelo projeto 1000 genomas (1KG) (1000 GENOMES PROJECT CONSORTIUM et al, 2015).

Para remover possíveis falsos-positivos, a análise foi limitada pela aplicação de filtros específicos. Nessa filtragem foram selecionadas apenas as variantes que apresentassem uma profundidade de cobertura mínima de 10 reads, com pelo menos 5 dessas reads apresentando a alteração, e, variantes que se encontram em regiões codificadoras. Os resultados mostraram que em média cerca de 72% das variantes encontradas no dado de RNA-seq estavam em concordância com a genotipagem disponibilizadas pelo projeto 1KG. As variantes identificadas no RNA-seq e que não foram encontradas na genotipagem podem ser explicadas parcialmente por erros durante o processo de mapeamento, assim como pelo processo de edição de RNA.

No entanto, a identificação correta das mutações somáticas não constitui o único obstáculo na identificação dos neoantígenos. Além disso, deve-se, também, considerar os fatores determinantes da imunogenicidade do peptídeo, pois, eles determinarão se um dado neoantígeno será reconhecido como uma molécula estranha pelo sistema imunológico (CHEN; MELLMAN, 2017). A ferramenta neoANT-HILL disponibiliza diversos algoritmos para estimar a afinidade de ligação entre os neoepítopos e as moléculas de HLA. Dentre esses algoritmos, incluem-se àqueles disponibilizados pelo IEDB, tanto para as moléculas HLA da classe I quanto para as

(43)

da classe II, e o MHCflurry, exclusivo para as moléculas da classe I. Os potenciais neoantígenos são classificados de acordo com essa afinidade de ligação.

Outra análise a ser considerada na identificação de potenciais neoantígenos é estimar a expressão dos transcritos pois essa informação irá confirmar se a mutação está realmente sendo expressa no RNA (GUBIN et al., 2015). A abundância dos transcritos é estimada indiretamente através da quantificação dos níveis de expressão de RNA. A ferramenta neoANT-HILL faz uso do Kallisto (BRAY et al., 2016), que utiliza um algoritmo de pseudoalinhamento para quantificar a expressão dos transcritos. A escolha dessa ferramenta foi realizada devido ao seu alto desempenho computacional e pela precisão dos níveis de expressão estimados.

Como já descrito anteriormente, neoANT-HILL é uma ferramenta versátil que integra diversas outras ferramentas que desempenham várias análises imunogênicas complementares entre si. Por exemplo, a tipagem in silico dos alelos de HLA de classe I é de vital importância para prever com precisão os neoantígenos. As moléculas de HLA da classe I apresentam peptídeos imunogênicos na superfície celular às células T, mediando, assim, as respostas das células T citotóxicas (KIYOTANI, CHAN, NAKAMURA, 2018). Utiliza-se a ferramenta Optitype (SZOLEK et al., 2014), com precisão de cerca de 97% (KIYOTANI, CHAN, NAKAMURA, 2018), para desempenhar esta análise.

A ferramenta neoANT-HILL também inclui o pipeline computacional quanTIseq (FINOTELLO et al., 2017), responsável pela caracterização do perfil imunológico do tumor. O microambiente tumoral é constituído por diversas células do sistema imunológico, porém, a presença de linfócitos infiltrados tem sido reconhecida como um biomarcador da resposta imune antitumoral associada à uma melhora no prognóstico dos indivíduos (MELICHAR et al., 2014).

Apesar de desempenhar múltiplas análises, a ferramenta neoANT-HILL ainda apresenta algumas limitações, tais como a identificação de peptídeos mutados derivados exclusivamente de mutações somáticas dos tipos missense, inframe e

frameshift. Porém, as fusões gênicas ou as mutações do tipo splice site também tem

potencial para originar neoantígenos através da geração de transcritos aberrantes (ZHANG, MARDIS, MAHER, 2017) (RAJASAGI et al., 2014). Outra limitação é a tipagem in silico de HLA exclusiva para os alelos da classe I, porém, os alelos de HLA da classe II são responsáveis pela apresentação dos antígenos às células T CD4+, que, como já descrito, também desempenham papéis importantes na resposta

(44)

imunológica antitumoral (GUBIN et al., 2015). Por isso, seria atrativo realizar também a tipagem alelo-específica dos alelos de classe II do indivíduo. Além disso, faz-se necessário uma análise de similaridade desse neoepítopos contra peptídeos intrínsecos, a fim de evitar possíveis efeitos colaterais na imunoterapia.

(45)

5 CONCLUSÃO

A ferramenta neoANT-HILL integra diversas análises imunogênicas individuais com a finalidade de melhorar a identificação correta de potenciais neoantígenos. neoANT-HILL apresenta diversas vantagens em relação às ferramentas já existentes, como por exemplo, a opção do uso exclusivo de dados de RNA-seq para a identificação de potenciais neoantígenos. Além disso, a ferramenta é capaz de disponibilizar indicações de prognóstico e de resposta às imunoterapias. É uma ferramenta amigável e interativa, que exige baixo conhecimento computacional. A identificação correta desses candidatos a neoantígenos irão ajudar a promover pesquisas na área de imunoterapias personalizadas contra o câncer e na identificação de biomarcadores preditivos.

Referências

Documentos relacionados

•   O  material  a  seguir  consiste  de  adaptações  e  extensões  dos  originais  gentilmente  cedidos  pelo 

CAIXA, além do benefício previsto no parágrafo segundo da cláusula 26, o empregado que adotar ou obtiver guarda judicial para fins de adoção de criança fará jus

A Terra deixará de ser mundo de sofrimentos, de exílio espiritual, de recuperações dolorosas, para tornar-se um plano de regeneração, quando a dor mais cruel baterá em retirada e o

Os ativos não circulantes classificados como disponível para venda são mensurados pelo menor montante entre o seu custo contábil e o seu valor justo, líquido das despesas com a

A fim de propiciar qualidade ao espaço construído e baixo impacto ao meio ambiente, a pesquisa tem como objetivo geral o resgate dos princípios bioclimáticos e paisagísticos no

A Congregação terá o prazo de 10 (dez) dias úteis para responder o recurso, a contar da data do seu protocolo. O candidato contratado deverá prestar serviços dentro do

Figura 2: Fotomicrografia do ovário do caranguejo-Uga Ucides cordatus, .mostrando: células foliculares (CF); na zona de proliferação central (seta branca), ovócito I (OVI);