• Nenhum resultado encontrado

Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica

N/A
N/A
Protected

Academic year: 2021

Share "Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica"

Copied!
145
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS FACULDADE DE CIÊNCIAS MÉDICAS

MURILO GUIMARÃES BORGES

METODOLOGIAS EM BIOINFORMÁTICA APLICADAS À ANÁLISE DE DADOS DE SEQUENCIAMENTO DE ALTO DESEMPENHO EM GENÉTICA MÉDICA

CAMPINAS 2019

(2)

MURILO GUIMARÃES BORGES

METODOLOGIAS EM BIOINFORMÁTICA APLICADAS À ANÁLISE DE DADOS DE SEQUENCIAMENTO DE ALTO DESEMPENHO EM GENÉTICA MÉDICA

Tese apresentada à Faculdade de Ciências Médicas da Universidade Estadual de Campinas como parte dos

requisitos exigidos para a obtenção do título de Doutor em Ciências

ORIENTADOR: PROFA. DRA. ÍSCIA TERESINHA LOPES CENDES

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL DA TESE DEFENDIDA PELO ALUNO MURILO GUIMARÃES BORGES, E ORIENTADA

PELA PROFA. DRA. ÍSCIA TERESINHA LOPES CENDES.

CAMPINAS

(3)
(4)

COMISSÃO EXAMINADORA DA DEFESA DE DOUTORADO

MURILO GUIMARÃES BORGES

ORIENTADOR: PROFA. DRA. ÍSCIA TERESINHA LOPES CENDES

MEMBROS:

1. PROFA. DRA. ÍSCIA TERESINHA LOPES CENDES

2. PROFA. DRA. ANA LUCIA BRUNIALTI GODARD

3. PROF. DR. WILSON ARAÚJO DA SILVA JÚNIOR

4. PROFA. DRA. MONICA BARBOSA DE MELO

5. PROFA. DRA. CLARISSA LIN YASUDA

Programa de Pós-Graduação em Fisiopatologia Médica da Faculdade de Ciências Médicas da Universidade Estadual de Campinas.

A ata de defesa com as respectivas assinaturas dos membros encontra-se no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da FCM.

(5)

Aos amados e

(6)

AGRADECIMENTOS

Quer conhecer bem um homem? Primeiro pergunte a ele ao que ele é grato. Talvez essa seja a atitude mais nobre para consigo mesmo e para com os outros, talvez esse seja o caminho mais seguro para os exercícios autênticos de alteridade, tanto para a descoberta do novo embrenhado dentro de si, quanto a abertura para novidade que se externa em tudo e todos ao seu redor. E diante destes “exercícios” diários, contemplativos e exegéticos, me coloco mais uma vez na postura primária do exercitante, tomando consciência de quão grato a tudo eu sou.

Primeiramente sou grato aquele de onde tudo vem, Deus. Agradeço por Ele se permitir contemplar, por vir ao meu encontro, pela experiência que faço Dele através dos outros e pelos outros no dia a dia. Agradeço por suas carícias e cuidado, na consolação e na desolação. Agradeço o desejo que Ele reacende todos os dias em meu coração, que não é o desejo do simples “bom” ou do corriqueiro “bem”, mas do melhor, do magnânimo, do MAIS. Peço que minha liberdade sempre esteja voltada para esses bons propósitos.

Sou grato por perceber que é em outra pessoa onde está a melhor parte de mim, aquilo que me faltava, e que agora me completa. Ticiana, meu amor, agradeço por estar ao meu lado, dividindo a vida, somando os desejos, multiplicando os sonhos. Agradeço por toda a minha história, pelos caminhos e passos de muitos que vieram antes de mim. Agradeço pelo “SIM” de meus pais, Manoel e Marlene, por terem materializado o desejo de felicidade em mim e em minha querida irmã, Ana Luiza. Agradeço também pela minha família estendida: os amigos queridos que vão conosco pelo caminho, plantando sorrisos e colhendo carinho.

Agradeço aos meus formadores e instrutores por me ajudarem na difícil tarefa de moldar um homem. Em especial a Prof.ª Iscia e Cristiane. Agradeço por vislumbrarem e despertarem em mim o melhor que eu posso ser. Espero eu também hoje poder ter este mesmo ímpeto de já saborear os frutos ao cuidar das flores no jardim. Agradeço pelas condições de permanecer na pesquisa, pela infraestrutura da Universidade Estadual de Campinas, da Faculdade de Ciências Médicas, agradecendo especialmente a Regina e ao Prof. Marcondes, com os quais tive uma

(7)

excelente convivência como representante discente do programa de Fisiopatologia Médica.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001.

(8)

Ensinamento

Minha mãe achava estudo a coisa mais fina do mundo. Não é. A coisa mais fina do mundo é o sentimento. Aquele dia de noite, o pai fazendo serão, ela falou comigo: “Coitado, até essa hora no serviço pesado”. Arrumou pão e café, deixou tacho no fogo com água quente. Não me falou em amor. Essa palavra de luxo.

(9)

RESUMO

O sequenciamento de nova geração é cada vez mais incorporado na prática clínica, trazendo consigo desafios. Para propósitos diagnósticos, são priorizados os métodos de alta resolução de sequenciamento: seja pela delimitação de uma região-alvo de um painel de genes, ou pela definição de uma região de interesse constituída pelos exons. Neste sentido, bancos de dados públicos ajudam a entender de que forma variações genéticas se relacionam a um dado fenótipo, ou simplesmente se devem a uma variabilidade normal da população. A influência de variantes comuns com alta frequência e qualidade na população brasileira em métodos de chamada de variantes ainda é desconhecida. No outro extremo, encontram-se as variantes com impacto clínico comprovado, cuja identificação, acreditamos ser dependente de fatores metodológicos. Perfis de herança genética mais complexos e variações em mais de uma linhagem celular geneticamente distinta de um mesmo organismo são de relevância para as epilepsias. Acredita-se que as mutações em mosaico sejam causais em alguns tipos de displasias corticais focais, e que um perfil poligênico seja mais realista para diversas manifestações epileptogênicas não-familiares. Assim, nosso objetivo foi aplicar e avaliar ferramentas e protocolos em bioinformática para análise de sequenciamento de exomas e painéis no contexto da medicina genômica. Fomos capazes de identificar variantes somáticas e em mosaico em pacientes com displasia cortical focal sequenciados por WES e por um painel de genes empregando nosso protocolo baseado no GATK. Realizamos controles de qualidade pré e pós alinhamento, chamada e anotação das variantes com diversos programas como FastQC, Rqc, Picard, entre outros. Tivemos uma correspondência de 92,4% entre as variantes do painel com o exoma. Com relação as ferramentas utilizadas para a chamada das variantes em mosaico, 85,7% das variantes foram exclusivas de uma das ferramentas, evidenciando uma baixa concordância metodológica para estes algoritmos. Como resultado da chamada de variantes do exoma de 122 pacientes do grupo de encefalopatias epilépticas do desenvolvimento, foram identificadas um total de 608634 variantes. As variantes foram anotadas com VEP e priorizadas com o VVP para possibilitar a filtragem posterior com BrowseVCF. Como resultados preliminares para a descrição de um perfil poligênico, identificamos 32 variantes como possíveis alvos em 24 genes relacionados ao sistema nervoso central pela aplicação de métodos de aprendizado

(10)

de máquina com RapidMiner. Com relação a aplicação de variantes comuns da população brasileira em protocolos de chamada de variantes, identificamos um alto potencial de sua utilização, aumentando a descoberta de variantes exclusivas de cada indivíduo em regiões anteriormente ignoradas pelos algoritmos. Ao investigar o padrão de profundidade do sequenciamento em amostras do projeto 1000 Genomas em variantes com relevância clínica, temos que a distribuição da profundidade de sequenciamento varia entre diferentes centros do consórcio, indicando um viés sistemático. Ao concluir este estudo, buscamos evidenciar o panorama das metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho e seu impacto no estabelecimento da medicina de precisão.

Palavras-chave: Bioinformática, sequenciamento, exoma, herança poligênica,

(11)

ABSTRACT

Next-generation sequencing is increasingly embedded in the clinical practice, bringing with it challenges as well. For diagnostic purposes, high-resolution sequencing methods are prioritized: either by delimiting a target region from a gene panel or by defining a region of interest constituted by the exons. In this sense, public databases help to understand how genetic variations relate to a given phenotype, or simply reflect normal population variability. The influence on variant calling methods of common variants with high frequency and quality in the Brazilian population is still unknown. At the other extreme are the variants with proven clinical impact, whose identification we believe to be dependent on methodological factors. More complex genetic inheritance profiles and variations in more than one genetically distinct cell line from the same organism are of relevance to epilepsies. Mosaic mutations are believed to be causal in some types of focal cortical dysplasia, and a polygenic profile is more realistic for several nonfamiliar epileptogenic manifestations. Thus, our general objective is to apply and evaluate tools and protocols in bioinformatics for the analysis of WES and panel sequencing in the genomic medicine context. We were able to identify somatic and mosaic variants in patients with focal cortical dysplasia sequenced by WES and with a panel of genes by using a protocol based on GATK. We performed quality controls before and after alignment, variant calling, and annotation of variants with programs like FastQC, Rqc and Picard. We had a 92.4% match between panel variants and the exome. Regarding the tools used for calling mosaic variants, 85.7% of the variants were unique to one of the tools, evidencing a low methodological agreement for these algorithms. For the call-set of 122 patients in the development epileptic encephalopathy group, were identified a total of 608634 variants. The variants were annotated with VEP and prioritized with VVP to allow subsequent filtering with BrowseVCF. As preliminary results for the description of a polygenic profile, we identified 32 variants as possible targets in 24 genes related to the central nervous system by using RapidMiner to implement machine learning methods. Regarding the application of common variants from the Brazilian population applied to variant calling protocols, we identified the high potential of its application, increasing the exclusive variants identification presented by each individual sample in regions previously ignored by the algorithms. When investigating the depth pattern in samples from the 1000 Genomes project in variants with clinical relevance, we have found that the depth

(12)

of coverage distribution varies between different centers of the consortium, indicating a systematic bias. In concluding this study, we sought to highlight the panorama of methodologies in bioinformatics applied to the analysis of high-performance sequencing data and its impact in the establishment of precision medicine.

Keywords: Bioinformatics, sequencing, exome, polygenic inheritance, depth of

(13)

SUMÁRIO

INTRODUÇÃO ... 16

O sequenciamento de nova geração ... 16

Incorporação do sequenciamento de nova geração na prática clínica e seus desafios ... 17

Bancos de dados públicos e seu potencial para medicina genômica ... 19

Epilepsias e malformações do desenvolvimento cortical ... 20

Variantes em mosaico na via da mTOR e GATOR ... 21

Encefalopatias epilépticas do desenvolvimento ... 23

Análises em bioinformática aplicadas à busca de variantes genômicas ... 24

Controle de qualidade pré-alinhamento ... 25

Alinhamento das sequências ao genoma de referência ... 25

Etapas de processamento pós-alinhamento ... 28

Identificação de variantes germinativas ... 30

Identificação de variantes em mosaico ... 31

Anotação, priorização e filtragem de variantes ... 33

Identificação de perfis de herança poligênicos com modelos de aprendizado de máquina ... 34

OBJETIVOS ... 40

Geral ... 40

Específicos ... 40

MATERIAIS E MÉTODOS ... 41

Perfil das amostras ... 41

Displasias corticais focais ... 41

Encefalopatias epilépticas do desenvolvimento ... 41

(14)

Método de sequenciamento ... 42

Análises in silico ... 44

Controle de Qualidade ... 44

Alinhamento das Sequências ao Genoma de Referência... 45

Processamento dos Arquivos de Alinhamento, Descoberta de Variantes Germinativas e Anotação ... 45

Priorização de variantes ... 46

Busca por variantes germinativas ... 46

Busca por variantes em mosaicos ... 47

Metodologia para construção de um modelo poligênico para as Encefalopatias epilépticas do desenvolvimento ... 48

Avaliação da cobertura de variantes com impacto clínico ... 49

Avaliação do impacto do realinhamento e recalibração da qualidade ao redor de sítios sabidamente variantes ... 50

Sumário das ferramentas utilizadas ... 53

RESULTADOS ... 55

Variantes germinativas e em mosaico em pacientes com displasia cortical focal .. 55

Controle de qualidade pré alinhamento ... 55

Controle de qualidade pós-alinhamento ... 55

Anotações para as variantes germinativas ... 61

Correspondência entre variantes germinativas de indivíduos sequenciados por painel e exoma ... 61

Correspondência entre as ferramentas de busca por mosaicos ... 63

Anotação, filtragem e priorização de variantes nas encefalopatias epilépticas do desenvolvimento ... 64

Perfil poligênico para as Encefalopatias Epilépticas na Infância ... 65

Avaliação do viés de cobertura em variantes clínicas do ClinVar em bancos de dados públicos ... 68

(15)

Realinhamento ao redor de regiões sabidamente variantes ... 70

DISCUSSÃO ... 75

Anotação, filtragem e priorização de variantes como alternativas para acelerar o diagnóstico em medicina genômica ... 75

Métodos de sequenciamento de alto desempenho possibilitam a detecção de variantes em mosaico pela utilização de múltiplas ferramentas in silico ... 77

Perfil poligênico das encefalopatias epilépticas do desenvolvimento pode ser melhor entendido pela aplicação de modelos de aprendizado de máquina ... 81

Diferenças metodológicas podem afetar a profundidade de sequenciamento, impactando na acurácia do diagnóstico genético ... 84

Processamento pós-alinhamento em WES: A diversidade genética tem um impacto? ... 87

CONCLUSÕES ... 89

REFERÊNCIAS ... 91

APÊNDICES ...113

A – Amostras do Projeto 1000 Genomas ... 113

B – Genes de interesse para as encefalopatias epilépticas do desenvolvimento 128

ANEXOS ...137

1 – Parecer do comitê de ética em pesquisa ... 137

2 – Termo de consentimento livre e esclarecido ... 140

(16)

INTRODUÇÃO

O sequenciamento de nova geração

O surgimento de métodos que propiciam o sequenciamento de moléculas de DNA, associado ao desenvolvimento e barateamento destas plataformas, consolidaram o sequenciamento de alto desempenho, NGS (Next Generation Sequencing), como um método eficiente para a identificação de variações genéticas, já que possui uma resolução dos constituintes básicos do genoma: as bases nitrogenadas (1)⁠. Além disso, o desenvolvimento destas plataformas se encontra em franco aprimoramento, tanto nas já consolidadas tecnologias policromáticas, quanto nas tecnologias monocromáticas ou acromáticas (2)⁠. Deste modo, formas tradicionais de mapeamento genético, como por cariótipo, análise de ligação, mapeamento de homozigocidade e análises de CNV (Copy Number Variation), além do sequenciamento de um gene candidato por capilaridade ou estudos com microarranjo, cederam lugar ao sequenciamento de grandes partes ou da totalidade do genoma humano (3)⁠. Sua aplicação nos projetos de pesquisa ou com propósitos diagnósticos têm como objetivo encontrar variantes genômicas com potencial patogênico, associadas às mais diversas manifestações (4-6).

Neste contexto, três abordagens de sequenciamento por NGS são aplicáveis: i) o sequenciamento de painéis genéticos contendo genes ou regiões candidatas a conterem as variantes de interesse, ii) o sequenciamento das regiões potencialmente codificantes do genoma humano, WES (sigla para Whole Exome Sequencing) e iii) o sequenciamento da totalidade do genoma humano, WGS (sigla do inglês Whole Genome Sequencing). A definição de qual estratégia de sequenciamento será empregada depende de vários fatores, dentre os quais: conhecimento prévio de genes e/ou regiões candidatas a conterem as alterações possivelmente associadas ao fenótipo; a disponibilidade de sequenciadores para a realização dos experimentos; o custo final dos experimentos e a disponibilidade de infraestrutura (incluindo pessoal treinado) para realizar as análises em bioinformática e interpretação dos dados (7).

Como justificativas para o uso do sequenciamento de regiões alvo (painéis e exomas), aplicados à pesquisa em genética molecular humana ou no contexto da medicina genômica, podemos citar que a maioria das variantes associadas a um dado

(17)

fenótipo está em uma região previamente conhecida ou na região codificante do genoma, aliada a falta de consenso na interpretação de uma variante em regiões não-codificantes ou de significado incerto (8, 9)⁠.

Considerar um grupo ou uma variante como causal para um fenótipo de interesse não é uma tarefa simples, e requer tanto conhecimento biológico quanto computacional, aliado à aplicação de métodos para a descoberta das variantes que permitam confirmar ou não os achados. Para padrões mendelianos, caracterizados por fenótipos causados por uma ou várias variantes em um gene e herdadas de modo recessivo, dominante ou ligada ao sexo, temos como abordagens possíveis: considerar as alterações para os indivíduos afetados; a filtragem de variantes depositadas em bancos de dados públicos; ou ainda, as presentes em controles ou indivíduos normais definidos no experimento (10, 11).

Estas abordagens tendem a diminuir o número de variantes, que podem igualmente ser filtrados pela presença em genes potenciais para explicar o fenótipo apresentado ou ainda por serem classificadas como candidatas em promover alterações significativas na tradução (12)⁠. Estratégias de filtragem das variantes baseadas na herança genética podem reduzir o número de possíveis candidatos, mas ainda podem não ser suficientes para gerar um número plausível de candidatos para validação ou confirmação do fenótipo por uma segunda técnica (13).

Incorporação do sequenciamento de nova geração na prática clínica e seus desafios

Inserir uma nova metodologia diagnóstica, que já nasce com a expectativa de ser o futuro da medicina personalizada, introduz grandes desafios (14-16)⁠. Alguns deles são sumarizados pelos processos de sequenciamento e alinhamento, anotação das variantes, apresentação dos achados, treinamento de pessoal qualificado, gerenciamento clínico dos achados e análises de custo efetividade do processo, como detalhado na Tabela 1.

(18)

Tabela 1. Desafios a serem considerados na implementação de sequenciamento de alto desempenho em medicina genômica.

Passo da análise Descrição e desafios Sequenciamento

e Alinhamento

Etapas de controle de qualidade pré e pós alinhamento devem

assegurar a alta qualidade das sequências alinhadas, evitando falsos-positivos

Anotação

Desenvolvimento de métodos de anotação que incluem

caracterização funcional de mutações e variantes e sua relevância como causais do fenótipo em estudo. Esta etapa depende fortemente de catálogos de variação genética bem anotados

Apresentação Achados genéticos relevantes, organizados de modo compreensível em um contexto clínico

Treinamento

Treinamento multiprofissional de profissionais de saúde para acessar e incorporar informações genômicas em sua prática rotineira bem como capacitá-los para transmitir os achados aos pacientes e familiares

Uso clínico Demonstrar que dados de genômica podem influenciar de modo significativo o gerenciamento clínico dos pacientes

Custo efetividade

Demonstrar que os custos são efetivos em relação aos benefícios para saúde destes pacientes

Adaptado de (14)⁠.

Mais recentemente, aplicações do sequenciamento como ferramenta para identificar variantes patogênicas no âmbito da medicina genômica tem sido desenvolvidas e aprimoradas (17-19). Essas se aplicam prioritariamente ao uso de painéis gênicos e WES. No entanto, algumas dificuldades permanecem e devem ser sanadas para que essa tecnologia se torne de fato mais disseminada (20-22)⁠. Na literatura é visível a necessidade de avanços na interpretação dos dados de alinhamento, no intuito de estabelecer uma relação mais clara entre genótipo e fenótipo, o que viabilizaria avanços no campo da medicina personalizada (8, 23)⁠. Além disso, ainda carecem de aprimoramento os processos de diferenciação entre variantes verdadeiras das provenientes de erros de sequenciamento ou alinhamento, com o desenvolvimento de métodos mais robustos de classificação das regiões variantes (24, 25)⁠, e ainda nas metodologias de análise que levem em consideração variações na cobertura de diferentes regiões do genoma cuja captura ou sequenciamento ainda são problemáticas (22, 26)⁠.

Ainda há vários obstáculos a superar no campo que se refere às limitações impostas pela etapa de análise dos dados (7)⁠. Dentre os quais, a falta de profissionais na área de bioinformática, atrelada a uma crescente demanda; fatores ligados ao

(19)

armazenamento de dados e gerenciamento de arquivos provenientes das análises; dificuldades relacionadas à integração de diversas ferramentas que devem ser utilizadas de modo sequencial e que, na maioria das vezes, não são preparadas para utilizar dados no mesmo formato de arquivos ou linguagem, requerendo grande intervenção do usuário (27-29).

Visto a enorme complexidade das etapas de alinhamento e descoberta de variantes, além da preocupação sempre presente em se garantir a qualidade das análises in silico realizadas, a correta aplicação de protocolos em bioinformática para análise é essencial para lidar com o alto volume de dados gerados pelos experimentos biológicos (30, 31)⁠.

De fato, intervenções são aplicáveis em várias etapas a fim de se garantir a qualidade das variantes descobertas pelas análises em NGS (32-34)⁠. Estas visam a verificação dos perfis de qualidade das sequências resultantes da reação de sequenciamento; alinhamento contra um genoma de referência, bem como a garantia de minimização de erros de alinhamento em regiões sabidamente ou potencialmente problemáticas; e a minimização de covariáveis de contexto que podem interferir na identificação de variantes, entre outras (25, 35-37)⁠.

Finalmente, um outro grande desafio é tornar todas as etapas da análise de dados suficientemente automatizadas e disponíveis, bem como a disponibilização de dados interpretáveis, para que profissionais da área médica e biológica possam assumir com maior independência parte das tarefas de análise computacional (38-42). Essa última característica será, num futuro próximo, a grande limitante para a disseminação dessas tecnologias na prática clínica. Assim, ela deve ser enfrentada imediatamente para não comprometer de maneira significativa a implementação dessas tecnologias (7, 43)⁠.

Bancos de dados públicos e seu potencial para medicina genômica

Entender a patogenicidade de uma determinada variante exige conhecimento prévio ou métodos analíticos específicos, sejam estes em bancada ou in silico (44, 45). Nessa perspectiva, bancos de dados contendo variantes previamente relacionadas a doenças têm um papel inquestionável ao se tentar estabelecer uma ligação entre fenótipos e genótipos (46)⁠. As variantes comuns de uma determinada

(20)

população também têm relevância para o diagnóstico clínico, evidenciando as alterações normais não necessariamente ligadas à doenças (43, 47-51). Muitos projetos foram implementados por grandes iniciativas em todo o mundo, fornecendo um panorama detalhado da diversidade genética humana entre regiões e/ou populações (52, 53)⁠.

Na América Latina, uma das primeiras iniciativas nesse sentido ocorreu com o lançamento da Iniciativa Brasileira em Medicina de Precisão, BIPMed (The Brazilian Initiative on Precision Medicine, http://bipmed.org), que culminou no agrupamento de outras iniciativas no portal de dados LatinGen (http://latingen.org/). O objetivo desta iniciativa é de ajudar no compartilhamento de dados e colaboração entre bancos genômicos na América Latina. Tais iniciativas materializam o que muitos estudos reforçam: a necessidade de entender melhor populações miscigenadas, como a população latino-americana, bem como outras populações ainda sub-representadas em grandes estudos de sequenciamento (11, 54-56).

Como mencionado anteriormente, certas metodologias de análise aplicadas na etapa de pós-alinhamento são indicados para tentar reduzir a fração de variantes introduzidas na chamada de variantes, mas que têm uma grande probabilidade de serem classificadas como falsas-positivas (36, 37)⁠. Em especial, inserções e deleções são mais propensas a serem mal interpretadas pelos algoritmos de chamada de variantes, e uma lista de alterações conhecidas de alta qualidade e alta frequência na população tendem a minimizar tais incompatibilidades, permitindo que essas sequências sejam corretamente realinhadas em tais regiões e recalibradas a fim de refletirem uma verdadeira variação genética (9, 57-59)⁠.

Epilepsias e malformações do desenvolvimento cortical

As epilepsias se constituem como uma classe ampla de doenças caracterizadas pela presença de descargas elétricas anormais e excessivas no sistema nervoso central, afetando entre 1,5 e 2% da população mundial (60, 61)⁠. As malformações do desenvolvimento cortical, por sua vez, designam um grupo de desordens relacionadas ao desenvolvimento ou organização estrutural do sistema nervoso central, tendo uma prevalência de cerca de 40% em indivíduos que podem apresentar concomitantemente epilepsia refratária (62, 63)⁠.

(21)

Dentre as malformações do desenvolvimento cortical, existem as que acometem o córtex de maneira difusa e outras de forma isolada. Dentro deste último grupo, se inserem as displasias corticais focais (DCF), que podem ser observadas em todo cérebro, porém mais frequentemente nos lobos temporal e frontal (60, 64-67)⁠.

Dentre os pacientes com epilepsia que se submetem ao procedimento cirúrgico, a incidência de DCF varia entre 2 e 36%, dos quais mais de 70% apresentam crises refratárias (68-70). Acredita-se que as causas da DCF estejam ligadas à proliferação e diferenciação anormal de neurônios, resultando em alterações cito-arquiteturais moderadas ou mais profundas com delaminação cortical (71, 72)⁠. Destes padrões, temos a classificação das DCFs como do tipo I, apresentando arquitetura laminar rompida de forma radial ou tangencial; e os do tipo II com laminação ausente ou anormal, mas com desorganização de seu citoesqueleto e presença de células aberrantes. As DCFs do tipo II ainda se subdividem no tipo IIA com presença de neurônios dismórficos e o IIB com a presença de células em balão (71, 73)⁠.

Variantes em mosaico na via da mTOR e GATOR

Quanto a sua apresentação, podemos considerar dois tipos principais de variantes genéticas: aquelas herdadas e as “de novo”. As variantes herdadas são aquelas que nos são transmitidas pelos pais. As variantes “de novo” se manifestam de maneira estocástica na prole. Dentre esta segunda classe, podemos ainda destacar um subtipo de variantes chamadas de mutação somáticas ou em mosaico (mosaicismo).

O termo "mosaico" faz alusão a uma forma artística em que se usam pequenas partes de pedras ornamentais, vidro, pedras preciosas ou outro material para formar uma grande imagem ou painel. Tomada a devida distância, vemos essa obra de arte como um grande desenho, e somente analisando esta imagem bem de perto podemos identificar seus pequeninos constituintes. Desta forma, consideramos que o mosaicismo genético implica na presença de mais de uma linhagem celular geneticamente distinta em um mesmo organismo. Assim como na arte, o mosaico em um organismo pode ser difícil de detectar, a menos que seja analisado de perto (74)⁠. De forma sistêmica, a análise do fenótipo do mosaico depende das variações genéticas presentes em um tecido, que podem não seguir padrões mendelianos de herança (75)⁠. Vários estudos apontam que o número de variantes em

(22)

mosaico presentes em um indivíduo pode ser subestimado (76, 77)⁠. E ainda, diversos estudos apontam o cérebro como sendo um órgão que abriga uma grande variedade destas alterações (78, 79).

Estas alterações cerebrais poderiam apresentar variantes em mosaico em diversos genes que explicariam os quadros de hemimegalencefalia (HME). A HME é uma malformação cerebral altamente epileptogênica onde há aumento de um dos hemisférios (80). Dentre os estudos realizados, encontramos evidências de que a via da mTOR (via que regula o crescimento celular, proliferação celular, motilidade celular, sobrevivência celular, síntese de proteínas, autofagia e transcrição) e GATOR (via que regula a via da mTOR) (81-84) estariam alteradas nos pacientes com HME. Dadas as semelhanças entre a DCF e a HME, estudos investigando estes mesmos genes chegaram à conclusão de que eles também estariam desregulados na DCF e em outras manifestações neurológicas (78, 85-89)⁠⁠. Desta forma, os genes das vias mTOR e GATOR se constituem como bons candidatos para o estudo das DCF. De fato, um estudo anterior de nosso grupo de pesquisa identificou que mais de 28% da casuística analisada possuía mutações em mosaico nas vias PI3K/AKT/mTOR (73).

Variantes em mosaico são dificilmente detectadas pela técnica de sequenciamento por Sanger. Um exemplo dessa limitação ficou claro em um estudo que analisou o exoma de três famílias com HME (90)⁠. Em um determinado ponto dos experimentos, foram ressequenciados exons de indivíduos afetados anteriormente considerados negativos para variantes em paralelo com indivíduos portadores de variantes conhecidas e indivíduos controles. Esse segundo experimento, realizado pela estratégia de sequenciamento de alta profundidade por NGS, confirmou as variantes que já haviam sido identificadas e detectou eventos adicionais, presentes na forma de mosaico, e que não foram detectadas em um primeiro momento ao se utilizar a técnica de sequenciamento por Sanger.

Levando em conta que variantes em mosaicismo, especialmente aquelas que acometem o tecido cerebral, podem contribuir para o desenvolvimento de doenças complexas e com fatores genéticos envolvidos, a possibilidade de detectá-las representa um grande desafio e toda uma gama de novas perspectivas para a utilização das tecnologias de NGS (91). Nesta perspectiva, diversos estudos convergem em identificar e associar variantes na via mTOR ou GATOR com as displasias corticais focais.

(23)

Encefalopatias epilépticas do desenvolvimento

As encefalopatias epilépticas do desenvolvimento (EED) constituem uma outra classe dentro das epilepsias (92, 93)⁠. Por conta de sua complexidade e heterogeneidade, busca-se subdividir as diferentes manifestações clínicas das EEDs, como brevemente descrito abaixo:

• Encefalopatia mioclônica precoce: Caracterizada por início de crises mioclônicas e parciais frequentes já nos primeiros dias de vida, com um padrão diagnóstico típico de surto-supressão pelo eletroencefalograma (94, 95)⁠. • Síndrome de Ohtahara: Caracterizada por início de crises mioclônicas e

parciais frequentes, geralmente nas primeiras duas semanas pós-parto, com padrões típicos no eletroencefalograma, podendo ainda haver malformações do desenvolvimento cortical (95, 96)⁠.

• Síndrome de West: é caracterizada pelo desenvolvimento lento acompanhado por espasmos infantis apresentados de três meses a um ano de idade acompanhado por um padrão de hipsarritmia no diagnóstico por eletroencefalograma (97, 98)⁠.

• Síndrome de Lennox-Gastaut: é caracterizada por crises com eletroencefalograma mostrando picos rápidos de explosões generalizadas durante o sono e ponta-onda lenta difusa durante vigília, podendo ou não estar acompanhadas por distúrbios do metabolismo, malformações corticais ou lesões vasculares (99, 100)⁠.

• Epilepsia com crises focais migratórias da infância: é uma manifestação rara nos primeiros seis meses de vida, com crises principalmente focais que podem evoluir para crises generalizadas com alterações focais independentes em ambos os hemisférios, acarretando um atraso no desenvolvimento (101, 102)⁠.

• Síndrome de Dravet: é caracterizada por crises generalizadas ou unilaterais, clônicas ou tônico-clônicas, induzidas por febre que surgem durante o primeiro ano de vida, que evoluem para crises mioclônicas e de ausência, sendo notados atraso cognitivo e distúrbios comportamentais (98, 103)⁠.

• Síndrome de Doose: é caracterizada por diferentes tipos de crises de início entre os sete meses e seis anos de idade, acompanhadas de deficiência cognitiva e atraso no desenvolvimento psicomotor (104, 105).

(24)

• Síndrome de encefalopatia epiléptica com ponta-onda contínua durante o

sono lento: apresenta um eletroencefalograma típico, onde as crises podem

ser focais e mais esporadicamente generalizadas, com início entre os 2 e 12 anos de idade, afetando o desenvolvimento neurocognitivo em metade dos afetados (106)⁠.

• Síndrome de Landau-Kleffner: apresentam-se crises generalizadas, parciais, mioclônicas e de ausência com padrão paroxístico no eletroencefalograma, com início entre os 2 e 8 anos de idade (107, 108)⁠.

O sequenciamento de nova geração é capaz de identificar variantes causais nos casos de EED em 10 a 20% dos casos, evidenciando que uma grande parcela dos pacientes ainda não é diagnosticado (109)⁠. As variantes associadas aos casos diagnosticados estão em genes que codificam subunidades de canais iônicos, bem como em subunidades de proteínas que interagem com esses canais (93, 110, 111)⁠. No entanto, dada a complexidade do fenótipo apresentado, especula-se se um modelo poligênico não poderia ser aplicado a estes pacientes, de forma a testar a hipótese de que a somatória de variantes de menor efeito poderia gerar o efeito fenotípico verificado (112).

Análises em bioinformática aplicadas à busca de variantes genômicas

Como produto resultante de uma reação de sequenciamento, milhões de sequências precisam ser alinhadas a um genoma de referência. Diversas implementações para esta tarefa são aplicáveis (30, 113, 114). No entanto, aquelas baseadas na transformada de Burrows-Wheeler se destacam devido a robustez computacional e compatibilidade com diferentes plataformas de NGS e velocidade (35, 115-117)⁠⁠. Como anteriormente citado, após o processamento das sequências alinhadas, temos que o cenário mais provável é de que uma proporção considerável das variantes sejam classificadas como falsas-positivas, por conta de limitações na etapa de alinhamento das sequências (59, 117)⁠. Dada a complexidade das etapas de alinhamento e descoberta de variantes, além da preocupação sempre presente em se garantir a qualidade das análises in silico realizadas, o desenvolvimento e aplicação de protocolos em bioinformática para análise dos dados são essenciais para lidar com

(25)

o alto volume de dados gerados e realizar a ligação entre o experimento biológico e a interpretação dos dados gerados: representam assim uma excelente oportunidade para desenvolvimento⁠.

De fato, intervenções podem ser aplicadas em várias etapas, a fim de se garantir a qualidade das variantes descobertas pela análise em NGS. Estas visam a verificação dos perfis de qualidade das sequências resultantes da reação de sequenciamento; alinhamento contra um genoma de referência, bem como a garantia de minimização de erros de alinhamento em regiões sabidamente ou potencialmente problemáticas para esta etapa, o que tende a reduzir a variabilidade dos resultados por covariáveis de contexto que podem interferir na identificação das variantes.

Controle de qualidade pré-alinhamento

Antes da realização das análises em si, o controle de qualidade das sequências geradas na reação de sequenciamento é essencial. Assim, desde o início das análises já se estabelecem quais os parâmetros de qualidade das sequências pretendidos para o prosseguimento das análises (32, 34, 118)⁠. A importância desta etapa da análise se dá ao considerar que é nesta fase do processamento das amostras que se pode detectar possíveis problemas ou erros sistemáticos que afetaram a reação de sequenciamento. Como exemplos, podemos citar a identificação de vieses nas etapas de interrogação das bases pelo sequenciador, produção das sequências, designação de valores de qualidade às bases interrogadas e demultiplexação das amostras (quando aplicável). Ignorar tais possíveis vieses pode repercutir em todas as etapas de processamento dos dados, culminando em erros na classificação das variantes e sua eventual interpretação errônea (119)⁠. É nesta etapa também que se podem identificar erros decorrentes do preparo das bibliotecas (incluindo reações de enriquecimento, quando aplicáveis) e da reação de sequenciamento (120)⁠.

Alinhamento das sequências ao genoma de referência

Finalizada a reação de sequenciamento, que nos fornece a identificação base-a-base das sequências de uma biblioteca, podemos alinhar cada um dos fragmentos ou sequências de DNA a um genoma de referência, de forma a encontrar

(26)

as regiões mais prováveis para o alinhamento dos fragmentos. Devido a permissividade de variação intrínseca aos alinhadores, geralmente se realiza o alinhamento não de uma sequência, mas de um par de sequências, que durante a preparação da biblioteca têm um tamanho específico (3, 120). Diversas ferramentas se prezam para este fim, variando nos algoritmos utilizados para comparação das sequências ao genoma de referência, na precisão e no consumo de poder de processamento (121)⁠. Diversas estruturas de dados são implementadas por cada uma destas ferramentas a fim de firmar um compromisso entre a velocidade e acurácia nas comparações entre os fragmentos sequenciados a serem alinhados e o genoma que servirá de referência para o alinhamento (35, 114, 122)⁠.

O alinhamento pareado de sequências (Pairwise Sequence Alignment, PSA) é uma das formas clássicas para se realizar o alinhamento de duas sequências, tendo sido utilizado pela primeira vez para se alinharem sequências originadas do sequenciamento por Sanger. Sua utilização se estende a várias ferramentas de refinamento de alinhamento em NGS, já que este algoritmo tem a capacidade de detectar com precisão as variantes de uma ou de múltiplas bases. O PSA é geralmente obtido através de algoritmos de programação dinâmica, como os algoritmos Needleman-Wunsch (123) e Smith-Waterman (124)⁠. Esses algoritmos atribuem uma pontuação positiva para regiões invariantes e três tipos de penalidades para as regiões variantes: uma primeira para a ocorrência de variantes, uma segunda para inserções e uma terceira para deleções. Logo, estes algoritmos buscam a solução que resulte em uma maior pontuação para ser a solução ideal do problema de alinhamento, ou em outras palavras, para encontrar a melhor região no genoma de referência para o alinhamento das sequências (121).

Outro método possível para o alinhamento consiste no uso de tabelas de hash, onde se realiza o alinhamento de pequenos fragmentos gerados a partir das sequências a serem alinhadas. Cada entrada é associada a um índice de forma unívoca, que é computado pelo cálculo de um hash da entrada, usando uma função hash (125). Em cada índice, a estrutura de dados armazena os locais nos quais a entrada correspondente é encontrada no genoma. A tabela pode então ser usada para realizar a consulta por uma sequência a fim de obter seu índice correspondente e, em seguida, percorrendo os locais em que a sequência é encontrada no genoma de referência. A escolha de uma função de hash é essencial, já que ela resulta em pesquisas que podem ser feitas com uma menor complexidade, espalhando o número

(27)

de colisões uniformemente sobre todas as entradas do genoma de referência. Uma colisão ocorre quando uma função de hash produz o mesmo índice para duas entradas diferentes. No caso de uma colisão, ela deve ser resolvida por meio de um esquema efetivo de manipulação. O objetivo dos esquemas de manipulação de colisões, além de resolver o evento em si, é distribuir os dados colidentes uniformemente no genoma de referência a fim de se reduzir a complexidade da pesquisa. Diversos algoritmos de alinhamento de leitura combinam estratégias de hash com esquemas de manipulação de colisões para encontrar rapidamente o local de mapeamento de uma leitura (114)⁠.

A transformada de Burrows-Wheeler é outro algoritmo empregado em alinhamento de sequências que foi originalmente concebido como um algoritmo aplicado para compactação de arquivos. Esse algoritmo transforma grandes sequências de caracteres em sequências de trechos menores de uma forma em que não se perde a informação da sequência original (35). Inúmeras ferramentas baseadas na transformada de Burrows-Wheeler foram propostas nos últimos anos, divergindo em dois aspectos principais: A primeira é uma estratégia de “semeadura” onde são encontradas correspondências exatas ao genoma. O segundo aspecto envolve a resolução de variações nas posições variantes, inserções e deleções. Abaixo listamos duas das ferramentas de alinhamento baseadas na transformada de Burrows-Wheeler mais utilizadas pela comunidade científica:

• Burrows-Wheeler Alignment (BWA) é uma das primeiras e mais usadas ferramentas baseadas na transformada de Burrows-Wheeler para alinhamento de sequências de NGS. Sua estratégia de funcionamento original foi desenvolvida para melhor desempenho quando aplicada a sequências curtas, de no máximo 100 pares de bases. A presença de inserções e deleções eram um desafio para essa ferramenta em sua primeira implementação. Para superar essas dificuldades, o algoritmo foi modificado na sua implementação BWA-MEM (35). Essa ferramenta pode alinhar sequências com um amplo espectro de comprimentos. Este algoritmo começa por encontrar as correspondências exatas máximas (Maximum Exact Matches, em inglês, MEM) para o alinhamento contra o genoma de referência. A ferramenta vasculha as sementes previamente geradas, e usa um algoritmo de programação dinâmica para estender as sementes, resolvendo as regiões variantes. Vale a pena ressaltar que este algoritmo e a maior parte dos algoritmos disponíveis para

(28)

alinhamento, somente considera uma sequência por vez, não levando em consideração o alinhamento feito anteriormente ou posteriormente à escolha da definição da melhor região para o alinhamento.

• Bowtie (115) é outra ferramenta que utiliza a transformada de Burrows-Wheeler. Se uma incompatibilidade for encontrada entre a sequência de referência e a sequência a ser alinhada, este algoritmo tentará alinhamentos alternativos nas proximidades do local de incompatibilidade e, em seguida, escolherá o cenário que melhor representaria o alinhamento da sequência e suas partes contra o genoma de referência. Outra característica desta ferramenta é que ela leva em consideração a qualidade de uma base nos cálculos de incompatibilidade. A ferramenta tolera um número especificado de variação nas bases de alta qualidade, e estabelece um limite para os valores de qualidade de todas as variantes em uma determinada sequência. Uma versão subsequente desta ferramenta, Bowtie2 (126), adicionou a habilidade para melhor identificar as regiões de inserções e deleções.

Etapas de processamento pós-alinhamento

Mesmo representando a etapa central de processamento de variantes em NGS, a etapa de alinhamento por si só não é capaz de resolver certos problemas oriundos da aplicação do NGS. As ditas etapas de pós-alinhamento visam corrigir ou minimizar certos vieses conhecidos, de forma a garantir acurácia na detecção de variantes.

O objetivo do realinhamento local de sequências em relação ao genoma de referência vai ao encontro de diminuir o número de bases em discordância com o genoma de referência, já que esta etapa de processamento busca levar em consideração uma ampla gama de contextos de alinhamento que tendem a ser mais parcimoniosos que aquele previamente escolhido pelo algoritmo de alinhamento aplicado sobre as sequências originais (127). Dentre as ocorrências de discordâncias entre as sequências e o genoma de referência, as inserções e deleções tendem a ser confundidas pelos alinhadores, que penalizam tais eventos de modo a considerar mais prováveis os eventos de mudança de uma única base ocorrendo múltiplas vezes (128)⁠.

(29)

O realinhamento de sequências tende a considerar não só uma sequência isolada, mas do conjunto de sequências que participam do mesmo evento variante. Levar em conta um contexto variante mais amplo é algo que não ocorre na etapa anterior de alinhamento das sequências, já que a maioria dos alinhadores trata cada uma das sequências a serem alinhadas de modo independente ao contexto de alinhamento. Nesta etapa, também é possível a utilização de variantes previamente conhecidas da população em questão, a fim de que estas posições integrem os sítios que serão possíveis alvos de realinhamento (129).

A etapa de realinhamento de sequências é de tão grande relevância que já foi inserido nativamente em alguns algoritmos de chamada de variantes, como no HaplotypeCaller e MuTect2 (versão 4.0.0, Beta), ambos mantidos pelo Broad Institute (130)⁠. A importância do realinhamento local pode ser constatada em um resultado obtido anteriormente em que estimou-se que para um experimento de sequenciamento por captura do exoma, o realinhamento local ocorra em cerca de 10 milhões de regiões para as amostras analisadas, o que afetaria quase 80% das sequências alinhadas de cada indivíduo, em uma região que corresponde a mais de 15% da definição do exoma para estas amostras (31, 127).

Um dos objetivos da etapa de controle de qualidade das sequências visa garantir que as sequências tenham uma determinada qualidade aceitável para o posterior alinhamento e realinhamento. A qualidade de uma determinada base é reflexo da confiabilidade de sua leitura, expressa pela escala phred no arquivo que possui as sequências brutas (131)⁠. Contudo, as classificações de qualidade dos sequenciadores estão sujeitas a vieses sistemáticos conhecidos para cada equipamento ou tecnologia de sequenciamento, resultando em qualidades sub ou superestimadas, a depender do contexto.

A implementação de um algoritmo que compreenda estes vieses sistemáticos e proponha normalizações para estes padrões implica na utilização de processos de aprendizado de máquina que visam criar modelos para correção destas qualidades, resultando em maior precisão para o processo de chamada de variantes (132).

A recalibração da qualidade envolve a construção de modelos de covariáveis, também chamados de contextos, baseado nas próprias sequências que constituem a amostra, podendo estender-se a um conjunto de regiões variantes previamente conhecidas. Ao final, este processo, tem-se uma tabela de recalibração

(30)

em que cada contexto recebe sua estimativa de qualidade correspondente. O contexto de recalibração citado acima pode ser constituído pelo grupo das sequências de um mesmo experimento de sequenciamento; o valor de qualidade fornecido pelo sequenciador; o ciclo da reação de sequenciamento; e o contexto das bases ao redor da base a ser recalibrada (132).

Identificação de variantes germinativas

Ao se comparar diversos algoritmos para chamada de variantes germinativas, diversos estudos apontam a maior especificidade do GATK para este fim (25, 47, 127, 133)⁠. Neste sentido, a implementação utilizada para chamada de variantes no GATK, o HaplotypeCaller, é capaz de interrogar regiões variantes de uma única base ou múltiplas bases simultaneamente, por meio de um processo de montagem de haplótipos em uma região ativa (134). Este processo ocorre de forma que sempre que o programa encontra uma região variante, ele leva em consideração o contexto ao redor da região variante, resultando em uma maior precisão de alinhamento, como por exemplo, quando há tipos diferentes de variantes próximas umas das outras ou em finais de sequências (47). De forma mais sistemática, podemos dizer que o HaplotypeCaller implementa os seguintes passos sequenciais em seu algoritmo de chamada de variantes (134):

1. Definição das regiões ativas: a presença de indícios de uma variação das sequências alinhadas com relação ao genoma de referência determina quais são as regiões ativas em que o programa operará em busca de confirmação da variação.

2. Determinação do haplótipo da região ativa: para cada região ativa, o programa constrói um grafo de Brujin com os possíveis haplótipos. Para cada haplótipo possível, é realizado um realinhamento para o dado haplótipo utilizando uma implementação do algoritmo de Smith-Waterman.

3. Determinação das probabilidades de cada um dos haplótipos da etapa

anterior: dados os realinhamentos na etapa anterior, o programa computa uma

matriz de probabilidades para cada uma das possibilidades de variação na região.

4. Atribuição dos genótipos à amostra: o programa aplica uma estatística Bayesiana para definição de qual seria (ou não) a variante associada à região

(31)

ativa utilizando as probabilidades dos alelos de forma a atribuir os alelos mais prováveis para a amostra.

Identificação de variantes em mosaico

O sequenciamento de alto desempenho se configura como uma técnica eficiente em se identificar mosaicismos somáticos (135). Uma série de estratégias de priorização pode ajudar a reduzir o número de variantes de interesse, como estratégias de filtragem por genes em regiões alvo ou de achados disponíveis em bancos de dados, bem como a predição de impacto na função gênica baseada na via a que pertence a variante (78, 86, 136). Contudo, a identificação de variantes em mosaico demanda muitos esforços, tanto para análise quanto para validação dos achados, e a detecção de mosaicismo somático continua a ser um desafio (137).

Diversas ferramentas implementam algoritmos para identificação de variantes em mosaico (74). Por conta de suas especificidades próprias, comumente se aplicam diversas ferramentas a fim de se concentrar nos cenários mais concordantes apresentados por implementações distintas. Abaixo apresentamos brevemente algumas destas ferramentas, discutindo algumas de suas especificidades:

• JointSNV: Esta ferramenta implementa modelos de probabilidade baseados em um treinamento com grafos para detecção de variantes de um único nucleotídeo presentes em um par de amostras de tecido afetado versus normal. Como resultado de sua implementação, temos uma lista de todas as variantes identificadas bem como estatísticas de contagem de eventos variantes em cada posição e, a determinada proporção e probabilidade destas variantes se constituírem em um mosaicismo (138).

• LocHap: Esta ferramenta implementa uma forma de identificação de variantes diferente das demais, baseada na chamada de locais de variação de haplótipos (LHVs). Um LHV refere-se a um haplótipo que manifesta mais de dois alelos em uma única amostra. Como resultado, o programa aponta as regiões constituídas por múltiplas variantes de nucleotídeo único proximais. Desta forma, o programa considera que ter mais de dois alelos implica em mosaicismo somático, classificando estas regiões variantes como tal (139).

(32)

• Mutect2: O processamento da busca por variantes implementado pelo Mutect2 se baseia na variação da fração dos alelos para cada possível sítio variante, aplicando filtros relacionados ao contexto das variantes reportadas. Esta ferramenta se propõe a realizar chamadas de variantes somáticas, ignorando variantes germinativas, contemplando não somente variantes de nucleotídeo único, mas também pequenas inserções e deleções (128, 140).

• Strelka: Este programa emprega um modelo de haplótipo hierárquico com o intuito de aumentar a precisão das chamadas, selecionando de forma adaptativa as variantes provenientes do alinhamento das sequências, fornecendo um realinhamento rápido para cada posição. O algoritmo emprega um método de estimativa de erro utilizando um modelo de mistura para melhorar a confiabilidade na chamada dos sítios variantes e diminuir o ruído causado pela presença de inserções e deleções nos sítios ativos considerados. Finalmente, uma etapa final de classificação de probabilidade usa modelos de random forests treinados no intuito de melhorar a precisão do algoritmo e classificação das variantes (141).

• SomaticSniper: Este programa identifica variações de uma base fazendo suas comparações entre um tecido “afetado” e uma amostra normal. Ele gera um arquivo em um formato muito semelhante ao formato VCF. Ele implementa um modelo para chamada das variantes baseado na verossimilhança dos genótipos calculando uma probabilidade de diferença entre tecido e da amostra normal (142).

• VarScan: Este algoritmo chama variantes somáticas (SNPs e indels) usando um método heurístico pela aplicação de um teste estatístico baseado no número de sequências alinhadas a uma determinada região que corroboram um determinado alelo. No modo somático, o VarScan lê um arquivo proveniente das posições de sobreposição das amostras a serem comparadas simultaneamente. Apenas as posições que estão presentes nos dois arquivos e atendem a parâmetros mínimos de execução em ambos os arquivos são comparadas (143).

(33)

Anotação, priorização e filtragem de variantes

A anotação de variantes visa adicionar informações às variantes identificadas pelos algoritmos utilizados, o que possibilita a posterior priorização e filtragem as variantes resultantes. Dentre os programas que se prezam a anotar variantes encontra-se o VEP (Variant Effect Predictor) (41) que implementa métodos de anotação automatizada de modo sistematizado, reduzindo o tempo de revisão dos pesquisadores ou responsáveis pela análise dos dados, ajudando a gerenciar muitos dos desafios comuns associados à análise de SNVs, inserções e deleções, variantes de número de cópias e variantes estruturais.

O VEP anota variantes usando uma ampla gama de bancos de dados, incluindo informações relacionadas a transcrição de proteínas, regiões regulatórias, frequências alélicas previamente referidas em bancos de dados públicos, citações em bases de dados como PubMed, informações sobre a relevância clínica e predição de seu potencial patogênico. Esta é uma ferramenta de código aberto que suporta total reprodutibilidade dos resultados obtidos (144, 145).

Ainda no tocante ao objetivo de se estabelecer quais variantes são de fato de interesse diagnóstico, a etapa de priorização nos fornece o efeito ou consequência para uma dada variante usando informações da anotação feitas na etapa anterior (146). Outras ferramentas de anotação podem ser utilizadas, tais como o VAT ou VAAST (Variant Annotation Tool), que auxiliam na identificação de transcrição, termos de ontologia e alteração de aminoácidos (41, 147, 148).

O processo de filtragem das variantes comumente presume que o pesquisador tenha de lidar com um alto volume de dados, com várias camadas de informações, podendo utilizar ferramentas livres, em sua maioria executadas na linha de comando, ou ferramentas proprietárias para este fim (146, 149-151). Embora esses aplicativos visem aumentar o protagonismo do especialista no processo de identificação de variantes relevantes, todos eles compartilham desvantagens em comum. Eles restringem o usuário a usar as anotações que estas ferramentas fornecem, em ambientes computacionais de alto desempenho e em sistemas operacionais específicos. Isso apresenta uma limitação significativa, especialmente quando se considera o crescente interesse em incorporar anotações particulares ou coletadas pelo usuário no processo de filtragem.

(34)

Pensando neste escopo, a ferramenta BrowseVCF se preza justamente em filtrar variantes com base nas anotações já inclusas no arquivo de variantes (VCF) (13). O BrowseVCF inclui um mecanismo de filtragem e um recurso de agrupamento de amostras que pode ser usado, por exemplo, para identificar variantes somáticas ou variantes recessivas ou dominantes, podendo filtrar milhões de variantes em segundos. Esta ferramenta tem ainda a vantagem de poder ser executada tanto em um computador pessoal ou em servidores de alto desempenho.

Identificação de perfis de herança poligênicos com modelos de aprendizado de máquina

A genética tem desempenhado importante papel para o estabelecimento da medicina de precisão, agregando-se cada vez mais a outras camadas de informações em um contexto clínico (152-154). Devido à crescente complexidade e volume de dados gerados pelo sequenciamento de DNA, desde muito cedo é latente a necessidade de métodos e ferramentas para análises diagnósticas aplicadas aos dados (16, 155, 156). No caso da bioinformática, a aplicação de ferramentas de big-data vem sendo utilizada para investigar mecanismos e eventuais interações em uma ampla gama de manifestações, se consolidando como uma abordagem efetiva para descoberta de marcadores genéticos e interação entre proteínas e transcritos (157-160).

Com relação à aplicação em medicina genômica destes métodos, com propósitos diagnósticos ou preditivos, a genotipagem por microarranjos já possibilitou a descoberta de marcadores genéticos em potencial para câncer e algumas condições neurológicas (161-163). Com relação às epilepsias, uma revisão contemplando biomarcadores associados a esta classe de doenças mostra que os alvos descritos na literatura têm alta sensibilidade e especificidade, contudo a utilização de métodos de busca para estes marcadores ainda carece de estudos mais controlados, com coortes de validação, resultando em análises com estatísticas e metodologias adequadas (164, 165).

Aplicações de ferramentas de big data têm grandes benefícios na prestação de assistência médica, ultrapassando as implicações diagnósticas e prognósticas, sendo também consideradas como agregadoras de valor comercial (166-169). Sua aplicação vai desde a busca de dados em prontuários eletrônicos, até

(35)

a aplicação de métodos de análise somados a outras camadas de dados mais heterogêneos, como imagens médicas, imagens não-clínicas, e-mails, entre outras (153, 170, 171)⁠. Várias ferramentas para big data se propõem a analisar coleções de dados complexas e difíceis de serem analisadas por metodologias tradicionais (172). Dentre as ferramentas descritas pelo estudo acima, o RapidMiner (173) é uma ferramenta cuja implementação não depende de uma linguagem de programação específica, possibilitando a fácil execução de análises preditivas em qualquer sistema, integrando uma ampla gama de algoritmos em relação às demais ferramentas disponíveis (174).

De fato, vários estudos têm utilizado o RapidMiner como plataforma de análise de grandes volumes de dados (175-177)⁠. Algumas das vantagens na utilização desta ferramenta estão na abordagem intuitiva em processar os arquivos de entrada, de modo a extrair, unir, filtrar, agrupar, transpor, transformar e limpar rapidamente os dados, além da transparência e reprodutibilidade das etapas de preparação de dados, tornando mais rápida a reutilização de processos aplicados a modelos preditivos (178).

Abaixo, sumarizamos algumas das especificidades dos algoritmos mais utilizados como preditores e descritores, quando aplicados a um grande volume de dados em aprendizado de máquina (adaptado de (179)):

• Naive Bayes: é um classificador probabilístico simples e rápido baseado no teorema de Bayes. Este algoritmo pode construir um bom modelo mesmo com um pequeno conjunto de dados. É simples de usar e de baixo custo computacional. Os casos de uso típicos envolvem categorização de texto, incluindo: detecção de spam, análise de sentimentos e sistemas de recomendação. A suposição fundamental do modelo é que o valor de qualquer atributo é independente de qualquer outro atributo, uma afirmativa que dificilmente é verdadeira (e de onde vem o termo “naive”, do inglês, “ingênuo”). Mas a experiência mostra que este classificador tem um bom desempenho, atrelado ao fato de que a suposição inicial de independência entre as variáveis simplifica sua implementação.

• Árvore de decisão: é um algoritmo que encontra modelos simples, com analogia a organização de uma árvore. Se constitui como uma estrutura de dados com uma coleção de nós destinada a criar uma decisão sobre a afiliação

(36)

de valores a uma determinada classe. Cada nó representa uma regra de seleção para um atributo específico. Para classificação, esta regra separa os valores pertencentes a classes diferentes. Para a regressão, os separa para reduzir o erro de uma maneira ótima para o critério do parâmetro selecionado. A construção de novos nós é repetida até que os critérios de parada sejam atendidos. Uma predição para o atributo do rótulo de classe é determinada dependendo da maioria dos exemplos que alcançaram essa folha durante a geração.

• Árvores Impulsionadas por Gradiente (XGBoost): é um modelo poderoso, mas complexo, que usa agrupamentos de árvores de decisão. Este algoritmo gera um conjunto de modelos de árvore de regressão ou de classificação. Ambos são métodos de aprendizagem progressiva que obtêm resultados preditivos através de estimativas gradualmente melhoradas. O “boosting” é um procedimento de regressão não linear flexível que ajuda a melhorar a precisão das árvores. Aplicando sequencialmente algoritmos de classificação fraca aos dados incrementalmente alterados, é criada uma série de árvores de decisão que produzem um conjunto de modelos de previsão fracos. Ao passo que a precisão do modelo aumenta com o número de árvores, diminuem a velocidade e a capacidade de interpretação dos resultados gerados. O método de aumento de gradiente generaliza o aumento de árvore para minimizar esses problemas. • Modelo Linear Generalizado (GLM): este algoritmo se constitui como uma generalização de modelos de regressão linear, sendo uma extensão dos modelos lineares tradicionais. Esse algoritmo ajusta estes modelos aos dados, maximizando a probabilidade. A penalidade de rede elástica pode ser usada para regularização de parâmetros. A computação do ajuste do modelo é paralela, extremamente rápida e é extremamente bem dimensionada para modelos com um número limitado de preditores.

• Regressão Logística: é um método estatístico amplamente utilizado para classificação binária, constituindo uma ferramenta para análise em larga escala. Esse método de aprendizado pode ser usado para regressão e classificação e fornece um algoritmo rápido com bons resultados para muitas tarefas de aprendizado. Conjuntamente, também podem ser aplicadas funções de perda lineares, quadráticas e até assimétricas com o objetivo de melhorar suas predições.

(37)

• Aprendizado Profundo (Deep Learning): é um algoritmo que implementa uma rede neural multinível para aprendizagem de relacionamentos não-lineares. O Aprendizado Profundo é baseado em várias camadas e treinada por gradientes estocásticos em propagação reversa. A rede pode conter um grande número de camadas ocultas que consistem em estruturas funcionais análogas a neurônios.

• Support Vector Machine (SVM): é um método poderoso para classificação e regressão. Sua implementação se baseia no aprendizado multiclasse interno com estimativa de probabilidade com base no escalonamento de valores de confiança após a aplicação do modelo aprendido em um conjunto de dados de classificação. O modelo SVM é uma representação das observações como pontos no espaço, mapeados para que as observações das categorias sejam separadas de forma mais clara possível.

• Fast Large Margin: o algoritmo Fast Large Margin implementa o algoritmo de aprendizagem de margem rápida tendo como base o esquema de vetores de suporte linear. Embora o resultado seja semelhante àquele fornecido por implementações clássicas de SVM ou da regressão logística, esse classificador linear é capaz de trabalhar em conjuntos de dados com milhões de observações e atributos.

Para a avaliação dos modelos de aprendizado de máquina, alguns parâmetros são descritos de modo a refletir na qualidade dos modelos, a saber:

• Acurácia: Número relativo de observações classificadas corretamente ou em outras palavras, porcentagem de previsões corretas:

ACC = verdadeiro-positivo + verdadeiro-negativo

verdadeiro-positivo + verdadeiro-negativo + falso-positivo + falso-negativo • Erro de classificação: Número relativo de observações classificadas

incorretamente ou em outras palavras, a porcentagem de previsões incorretas:

ERR = falso-positivo + falso-negativo

verdadeiro-positivo + verdadeiro-negativo + falso-positivo + falso-negativo • AUC: do inglês, “area under the ROC curve”, onde ROC, significa “Receiver

Operating Characteristic”. É um parâmetro que busca expressar uma curva ROC em um valor único, variando entre 0 e 1, expressando o valor da área sobre a curva ROC. Quanto maior o AUC, melhor o modelo.

(38)

• Precisão: também chamada de PPV (valor de predição positiva, em inglês), mede o grau em que as medições repetidas em condições inalteradas mostram os mesmos resultados:

PPV = verdadeiro-positivo

verdadeiro-positivo + verdadeiro-negativo

• Sensibilidade: também chamada de TPR (taxa de verdadeiros-positivos, em inglês), mede a proporção de verdadeiros-positivos identificados corretamente:

TPR = verdadeiro-positivo

verdadeiro-positivo + falso-negativo

• F-score: média harmônica entre a precisão (PPV) e a sensibilidade (TPR): F = 2 ×PPV × TPR

PPV + TPR=

2 × verdadeiro-positivo

2 × verdadeiro-positivo + falso-positivo + falso-negativo • Especificidade: também chamada de TNR (taxa de verdadeiros-negativos, em

inglês), mede a proporção de verdadeiros-negativos identificados corretamente:

TNR = verdadeiro-negativo

verdadeiro-negativo + falso-positivo

Diante de toda evidência apresentada até aqui, fica clara a necessidade de aplicação de métodos computacionais automatizados nos processos de sequenciamento e alinhamento das sequências, de agregação de informações sobre as variantes descobertas e plataformas efetivas para sua anotação, classificação, priorização e posterior filtragem⁠. Os diversos programas apresentados que implementam diferentes algoritmos para chamada de variantes em mosaico, não necessariamente são correlacionáveis. Se apresenta como um desafio, meios de integração destes diferentes algoritmos, seja na integração de seus resultados, seja na uniformização dos arquivos de saída destes programas. Com relação as doenças complexas, que podem possuir um perfil de herança poligênico, temos como proposta a implementação de modelos descritivos e preditivos em aprendizado de máquina, no intuito de identificar marcadores e vias potenciais envolvidas na epileptogênese de pacientes de nossa casuística. Com relação as reações de sequenciamento por captura em WES, a profundidade pode variar muito, de modo que a captura de algumas regiões pode ser problemática. Avaliaremos a distribuição da profundidade nas variantes presentes no banco de dados do ClinVar, dada sua relevância para se

(39)

estabelecer relações genótipo-fenótipo com aplicação direta na implementação da medicina de precisão. Finalmente, temos que a influência de variantes conhecidas com alta frequência e qualidade na população brasileira ou latino-americana ainda é desconhecida e sua aplicação em protocolos de descoberta de variantes genéticas justifica os objetivos deste trabalho.

Referências

Documentos relacionados

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação

O sistema tem como cenários de utilização a gestão de agendamentos de atendimentos da Área de Saúde, a geração automática de relacionamento entre cliente e profissional

Contudo, sendo um campo de pesquisa e de atuação muito específico e novo no Brasil, ainda existe uma série de dificuldades para a eleição de parâmetros de conservação

a) Sistema de produto: produção integrada: soja, capim e algodão. O capim é cultivado como espécie formadora de palha; não é colhido ou pastejado, correspondendo, portanto, a um

Este trabalho pretende contribuir com o desenvolvimento do Turismo em Caverna, Espeleoturismo, a partir da avaliação da percepção de qualidade de serviços pelos visitantes

Informações tais como: percentual estatístico das especialidades médicas e doenças, taxas de ocupação dos principais recursos, tempos de permanência de internação, escores

• The definition of the concept of the project’s area of indirect influence should consider the area affected by changes in economic, social and environmental dynamics induced

[r]