Atribuição dos genótipos à amostra: o programa aplica uma estatística Bayesiana para definição de qual seria (ou não) a variante associada à região

ativa utilizando as probabilidades dos alelos de forma a atribuir os alelos mais prováveis para a amostra.

Identificação de variantes em mosaico

O sequenciamento de alto desempenho se configura como uma técnica eficiente em se identificar mosaicismos somáticos (135). Uma série de estratégias de priorização pode ajudar a reduzir o número de variantes de interesse, como estratégias de filtragem por genes em regiões alvo ou de achados disponíveis em bancos de dados, bem como a predição de impacto na função gênica baseada na via a que pertence a variante (78, 86, 136). Contudo, a identificação de variantes em mosaico demanda muitos esforços, tanto para análise quanto para validação dos achados, e a detecção de mosaicismo somático continua a ser um desafio (137).

Diversas ferramentas implementam algoritmos para identificação de variantes em mosaico (74). Por conta de suas especificidades próprias, comumente se aplicam diversas ferramentas a fim de se concentrar nos cenários mais concordantes apresentados por implementações distintas. Abaixo apresentamos brevemente algumas destas ferramentas, discutindo algumas de suas especificidades:

• JointSNV: Esta ferramenta implementa modelos de probabilidade baseados em um treinamento com grafos para detecção de variantes de um único nucleotídeo presentes em um par de amostras de tecido afetado versus normal. Como resultado de sua implementação, temos uma lista de todas as variantes identificadas bem como estatísticas de contagem de eventos variantes em cada posição e, a determinada proporção e probabilidade destas variantes se constituírem em um mosaicismo (138).

• LocHap: Esta ferramenta implementa uma forma de identificação de variantes diferente das demais, baseada na chamada de locais de variação de haplótipos (LHVs). Um LHV refere-se a um haplótipo que manifesta mais de dois alelos em uma única amostra. Como resultado, o programa aponta as regiões constituídas por múltiplas variantes de nucleotídeo único proximais. Desta forma, o programa considera que ter mais de dois alelos implica em mosaicismo somático, classificando estas regiões variantes como tal (139).

• Mutect2: O processamento da busca por variantes implementado pelo Mutect2 se baseia na variação da fração dos alelos para cada possível sítio variante, aplicando filtros relacionados ao contexto das variantes reportadas. Esta ferramenta se propõe a realizar chamadas de variantes somáticas, ignorando variantes germinativas, contemplando não somente variantes de nucleotídeo único, mas também pequenas inserções e deleções (128, 140).

• Strelka: Este programa emprega um modelo de haplótipo hierárquico com o intuito de aumentar a precisão das chamadas, selecionando de forma adaptativa as variantes provenientes do alinhamento das sequências, fornecendo um realinhamento rápido para cada posição. O algoritmo emprega um método de estimativa de erro utilizando um modelo de mistura para melhorar a confiabilidade na chamada dos sítios variantes e diminuir o ruído causado pela presença de inserções e deleções nos sítios ativos considerados. Finalmente, uma etapa final de classificação de probabilidade usa modelos de random forests treinados no intuito de melhorar a precisão do algoritmo e classificação das variantes (141).

• SomaticSniper: Este programa identifica variações de uma base fazendo suas comparações entre um tecido “afetado” e uma amostra normal. Ele gera um arquivo em um formato muito semelhante ao formato VCF. Ele implementa um modelo para chamada das variantes baseado na verossimilhança dos genótipos calculando uma probabilidade de diferença entre tecido e da amostra normal (142).

• VarScan: Este algoritmo chama variantes somáticas (SNPs e indels) usando um método heurístico pela aplicação de um teste estatístico baseado no número de sequências alinhadas a uma determinada região que corroboram um determinado alelo. No modo somático, o VarScan lê um arquivo proveniente das posições de sobreposição das amostras a serem comparadas simultaneamente. Apenas as posições que estão presentes nos dois arquivos e atendem a parâmetros mínimos de execução em ambos os arquivos são comparadas (143).

Anotação, priorização e filtragem de variantes

A anotação de variantes visa adicionar informações às variantes identificadas pelos algoritmos utilizados, o que possibilita a posterior priorização e filtragem as variantes resultantes. Dentre os programas que se prezam a anotar variantes encontra-se o VEP (Variant Effect Predictor) (41) que implementa métodos de anotação automatizada de modo sistematizado, reduzindo o tempo de revisão dos pesquisadores ou responsáveis pela análise dos dados, ajudando a gerenciar muitos dos desafios comuns associados à análise de SNVs, inserções e deleções, variantes de número de cópias e variantes estruturais.

O VEP anota variantes usando uma ampla gama de bancos de dados, incluindo informações relacionadas a transcrição de proteínas, regiões regulatórias, frequências alélicas previamente referidas em bancos de dados públicos, citações em bases de dados como PubMed, informações sobre a relevância clínica e predição de seu potencial patogênico. Esta é uma ferramenta de código aberto que suporta total reprodutibilidade dos resultados obtidos (144, 145).

Ainda no tocante ao objetivo de se estabelecer quais variantes são de fato de interesse diagnóstico, a etapa de priorização nos fornece o efeito ou consequência para uma dada variante usando informações da anotação feitas na etapa anterior (146). Outras ferramentas de anotação podem ser utilizadas, tais como o VAT ou VAAST (Variant Annotation Tool), que auxiliam na identificação de transcrição, termos de ontologia e alteração de aminoácidos (41, 147, 148).

O processo de filtragem das variantes comumente presume que o pesquisador tenha de lidar com um alto volume de dados, com várias camadas de informações, podendo utilizar ferramentas livres, em sua maioria executadas na linha de comando, ou ferramentas proprietárias para este fim (146, 149-151). Embora esses aplicativos visem aumentar o protagonismo do especialista no processo de identificação de variantes relevantes, todos eles compartilham desvantagens em comum. Eles restringem o usuário a usar as anotações que estas ferramentas fornecem, em ambientes computacionais de alto desempenho e em sistemas operacionais específicos. Isso apresenta uma limitação significativa, especialmente quando se considera o crescente interesse em incorporar anotações particulares ou coletadas pelo usuário no processo de filtragem.

Pensando neste escopo, a ferramenta BrowseVCF se preza justamente em filtrar variantes com base nas anotações já inclusas no arquivo de variantes (VCF) (13). O BrowseVCF inclui um mecanismo de filtragem e um recurso de agrupamento de amostras que pode ser usado, por exemplo, para identificar variantes somáticas ou variantes recessivas ou dominantes, podendo filtrar milhões de variantes em segundos. Esta ferramenta tem ainda a vantagem de poder ser executada tanto em um computador pessoal ou em servidores de alto desempenho.

Identificação de perfis de herança poligênicos com modelos de aprendizado de máquina

A genética tem desempenhado importante papel para o estabelecimento da medicina de precisão, agregando-se cada vez mais a outras camadas de informações em um contexto clínico (152-154). Devido à crescente complexidade e volume de dados gerados pelo sequenciamento de DNA, desde muito cedo é latente a necessidade de métodos e ferramentas para análises diagnósticas aplicadas aos dados (16, 155, 156). No caso da bioinformática, a aplicação de ferramentas de big- data vem sendo utilizada para investigar mecanismos e eventuais interações em uma ampla gama de manifestações, se consolidando como uma abordagem efetiva para descoberta de marcadores genéticos e interação entre proteínas e transcritos (157- 160).

Com relação à aplicação em medicina genômica destes métodos, com propósitos diagnósticos ou preditivos, a genotipagem por microarranjos já possibilitou a descoberta de marcadores genéticos em potencial para câncer e algumas condições neurológicas (161-163). Com relação às epilepsias, uma revisão contemplando biomarcadores associados a esta classe de doenças mostra que os alvos descritos na literatura têm alta sensibilidade e especificidade, contudo a utilização de métodos de busca para estes marcadores ainda carece de estudos mais controlados, com coortes de validação, resultando em análises com estatísticas e metodologias adequadas (164, 165).

Aplicações de ferramentas de big data têm grandes benefícios na prestação de assistência médica, ultrapassando as implicações diagnósticas e prognósticas, sendo também consideradas como agregadoras de valor comercial (166-169). Sua aplicação vai desde a busca de dados em prontuários eletrônicos, até

a aplicação de métodos de análise somados a outras camadas de dados mais heterogêneos, como imagens médicas, imagens não-clínicas, e-mails, entre outras (153, 170, 171)⁠. Várias ferramentas para big data se propõem a analisar coleções de dados complexas e difíceis de serem analisadas por metodologias tradicionais (172). Dentre as ferramentas descritas pelo estudo acima, o RapidMiner (173) é uma ferramenta cuja implementação não depende de uma linguagem de programação específica, possibilitando a fácil execução de análises preditivas em qualquer sistema, integrando uma ampla gama de algoritmos em relação às demais ferramentas disponíveis (174).

De fato, vários estudos têm utilizado o RapidMiner como plataforma de análise de grandes volumes de dados (175-177)⁠. Algumas das vantagens na utilização desta ferramenta estão na abordagem intuitiva em processar os arquivos de entrada, de modo a extrair, unir, filtrar, agrupar, transpor, transformar e limpar rapidamente os dados, além da transparência e reprodutibilidade das etapas de preparação de dados, tornando mais rápida a reutilização de processos aplicados a modelos preditivos (178).

Abaixo, sumarizamos algumas das especificidades dos algoritmos mais utilizados como preditores e descritores, quando aplicados a um grande volume de dados em aprendizado de máquina (adaptado de (179)):

• Naive Bayes: é um classificador probabilístico simples e rápido baseado no teorema de Bayes. Este algoritmo pode construir um bom modelo mesmo com um pequeno conjunto de dados. É simples de usar e de baixo custo computacional. Os casos de uso típicos envolvem categorização de texto, incluindo: detecção de spam, análise de sentimentos e sistemas de recomendação. A suposição fundamental do modelo é que o valor de qualquer atributo é independente de qualquer outro atributo, uma afirmativa que dificilmente é verdadeira (e de onde vem o termo “naive”, do inglês, “ingênuo”). Mas a experiência mostra que este classificador tem um bom desempenho, atrelado ao fato de que a suposição inicial de independência entre as variáveis simplifica sua implementação.

• Árvore de decisão: é um algoritmo que encontra modelos simples, com analogia a organização de uma árvore. Se constitui como uma estrutura de dados com uma coleção de nós destinada a criar uma decisão sobre a afiliação

de valores a uma determinada classe. Cada nó representa uma regra de seleção para um atributo específico. Para classificação, esta regra separa os valores pertencentes a classes diferentes. Para a regressão, os separa para reduzir o erro de uma maneira ótima para o critério do parâmetro selecionado. A construção de novos nós é repetida até que os critérios de parada sejam atendidos. Uma predição para o atributo do rótulo de classe é determinada dependendo da maioria dos exemplos que alcançaram essa folha durante a geração.

• Árvores Impulsionadas por Gradiente (XGBoost): é um modelo poderoso, mas complexo, que usa agrupamentos de árvores de decisão. Este algoritmo gera um conjunto de modelos de árvore de regressão ou de classificação. Ambos são métodos de aprendizagem progressiva que obtêm resultados preditivos através de estimativas gradualmente melhoradas. O “boosting” é um procedimento de regressão não linear flexível que ajuda a melhorar a precisão das árvores. Aplicando sequencialmente algoritmos de classificação fraca aos dados incrementalmente alterados, é criada uma série de árvores de decisão que produzem um conjunto de modelos de previsão fracos. Ao passo que a precisão do modelo aumenta com o número de árvores, diminuem a velocidade e a capacidade de interpretação dos resultados gerados. O método de aumento de gradiente generaliza o aumento de árvore para minimizar esses problemas. • Modelo Linear Generalizado (GLM): este algoritmo se constitui como uma generalização de modelos de regressão linear, sendo uma extensão dos modelos lineares tradicionais. Esse algoritmo ajusta estes modelos aos dados, maximizando a probabilidade. A penalidade de rede elástica pode ser usada para regularização de parâmetros. A computação do ajuste do modelo é paralela, extremamente rápida e é extremamente bem dimensionada para modelos com um número limitado de preditores.

• Regressão Logística: é um método estatístico amplamente utilizado para classificação binária, constituindo uma ferramenta para análise em larga escala. Esse método de aprendizado pode ser usado para regressão e classificação e fornece um algoritmo rápido com bons resultados para muitas tarefas de aprendizado. Conjuntamente, também podem ser aplicadas funções de perda lineares, quadráticas e até assimétricas com o objetivo de melhorar suas predições.

• Aprendizado Profundo (Deep Learning): é um algoritmo que implementa uma rede neural multinível para aprendizagem de relacionamentos não-lineares. O Aprendizado Profundo é baseado em várias camadas e treinada por gradientes estocásticos em propagação reversa. A rede pode conter um grande número de camadas ocultas que consistem em estruturas funcionais análogas a neurônios.

• Support Vector Machine (SVM): é um método poderoso para classificação e regressão. Sua implementação se baseia no aprendizado multiclasse interno com estimativa de probabilidade com base no escalonamento de valores de confiança após a aplicação do modelo aprendido em um conjunto de dados de classificação. O modelo SVM é uma representação das observações como pontos no espaço, mapeados para que as observações das categorias sejam separadas de forma mais clara possível.

• Fast Large Margin: o algoritmo Fast Large Margin implementa o algoritmo de aprendizagem de margem rápida tendo como base o esquema de vetores de suporte linear. Embora o resultado seja semelhante àquele fornecido por implementações clássicas de SVM ou da regressão logística, esse classificador linear é capaz de trabalhar em conjuntos de dados com milhões de observações e atributos.

Para a avaliação dos modelos de aprendizado de máquina, alguns parâmetros são descritos de modo a refletir na qualidade dos modelos, a saber:

• Acurácia: Número relativo de observações classificadas corretamente ou em outras palavras, porcentagem de previsões corretas:

ACC = verdadeiro-positivo + verdadeiro-negativo

verdadeiro-positivo + verdadeiro-negativo + falso-positivo + falso-negativo • Erro de classificação: Número relativo de observações classificadas

incorretamente ou em outras palavras, a porcentagem de previsões incorretas:

ERR = falso-positivo + falso-negativo

verdadeiro-positivo + verdadeiro-negativo + falso-positivo + falso-negativo • AUC: do inglês, “area under the ROC curve”, onde ROC, significa “Receiver

Operating Characteristic”. É um parâmetro que busca expressar uma curva ROC em um valor único, variando entre 0 e 1, expressando o valor da área sobre a curva ROC. Quanto maior o AUC, melhor o modelo.

• Precisão: também chamada de PPV (valor de predição positiva, em inglês), mede o grau em que as medições repetidas em condições inalteradas mostram os mesmos resultados:

PPV = verdadeiro-positivo

verdadeiro-positivo + verdadeiro-negativo

• Sensibilidade: também chamada de TPR (taxa de verdadeiros-positivos, em inglês), mede a proporção de verdadeiros-positivos identificados corretamente:

TPR = verdadeiro-positivo

verdadeiro-positivo + falso-negativo

• F-score: média harmônica entre a precisão (PPV) e a sensibilidade (TPR): F = 2 ×PPV × TPR

PPV + TPR=

2 × verdadeiro-positivo

2 × verdadeiro-positivo + falso-positivo + falso-negativo • Especificidade: também chamada de TNR (taxa de verdadeiros-negativos, em

inglês), mede a proporção de verdadeiros-negativos identificados corretamente:

TNR = verdadeiro-negativo

verdadeiro-negativo + falso-positivo

Diante de toda evidência apresentada até aqui, fica clara a necessidade de aplicação de métodos computacionais automatizados nos processos de sequenciamento e alinhamento das sequências, de agregação de informações sobre as variantes descobertas e plataformas efetivas para sua anotação, classificação, priorização e posterior filtragem⁠. Os diversos programas apresentados que implementam diferentes algoritmos para chamada de variantes em mosaico, não necessariamente são correlacionáveis. Se apresenta como um desafio, meios de integração destes diferentes algoritmos, seja na integração de seus resultados, seja na uniformização dos arquivos de saída destes programas. Com relação as doenças complexas, que podem possuir um perfil de herança poligênico, temos como proposta a implementação de modelos descritivos e preditivos em aprendizado de máquina, no intuito de identificar marcadores e vias potenciais envolvidas na epileptogênese de pacientes de nossa casuística. Com relação as reações de sequenciamento por captura em WES, a profundidade pode variar muito, de modo que a captura de algumas regiões pode ser problemática. Avaliaremos a distribuição da profundidade nas variantes presentes no banco de dados do ClinVar, dada sua relevância para se

estabelecer relações genótipo-fenótipo com aplicação direta na implementação da medicina de precisão. Finalmente, temos que a influência de variantes conhecidas com alta frequência e qualidade na população brasileira ou latino-americana ainda é desconhecida e sua aplicação em protocolos de descoberta de variantes genéticas justifica os objetivos deste trabalho.

OBJETIVOS

Geral

Aplicar e avaliar ferramentas e protocolos em bioinformática para análise de sequenciamento de alto desempenho de exomas e painéis no contexto da medicina genômica.

Específicos

• Aplicar e avaliar ferramentas e protocolos em bioinformática para análise de sequenciamento de exomas e painéis de alta cobertura na busca de variantes germinativas e em mosaico presentes em pacientes com displasia cortical focal.

• Aplicar e avaliar ferramentas de anotação, filtragem e priorização de variantes genéticas de pacientes com encefalopatias epilépticas do desenvolvimento. • Implementar modelos preditivos e descritivos baseados em uma herança

genética poligênica para as encefalopatias epilépticas do desenvolvimento. • Avaliar o impacto de diferenças metodológicas sistemáticas na cobertura de

variantes com impacto clínico.

• Avaliar o impacto do realinhamento e recalibração da qualidade ao redor de sítios sabidamente variantes selecionadas da população brasileira na descoberta de novas variantes.

No documento Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica (páginas 30-41)