• Nenhum resultado encontrado

MATERIAIS E MÉTODOS

VVP 1.5 Priorização de variantes anotadas.

RESULTADOS

Variantes germinativas e em mosaico em pacientes com displasia cortical focal

No intuito de identificar variantes nos pacientes com displasia cortical focal, as amostras de DNA foram submetidas ao sequenciamento, seja na forma de um painel contemplando os genes constituintes das vias mTOR e GATOR ou ainda um painel de captura dos exons por WES. A Tabela 2 descreve de forma detalhada como foram preparadas as bibliotecas utilizadas para a identificação de variantes germinativas e em mosaico para pacientes com displasia cortical focal e quais amostras foram submetidas a cada um dos sequenciamentos. Notamos que nem todos os pacientes foram sequenciados por ambos WES e painel.

Controle de qualidade pré alinhamento

Com o intuito de avaliar a qualidade das sequências fornecidas pelo alinhador, para ambos exoma e painel, realizamos o controle de qualidade para nossas sequências anteriormente à etapa de alinhamento. A Figura 2 mostra os resultados para o painel e a Figura 3 para o exoma. Ao compararmos os perfis de qualidade entre os dois experimentos, identificamos uma maior qualidade nas sequências obtidas pelo sequenciamento do painel em relação àquelas no exoma, seja ao avaliar o percentual acumulado de sequências excedendo determinada qualidade (mais de 95% das bases com qualidade superior a 30 no painel contra pouco mais de 80% no exoma), e quanto a qualidade média por ciclo de sequenciamento (todas as sequências com qualidade superior a 30 no painel, ao passo de uma considerável quantidade inferior a 30 para o exoma no final das sequências).

Controle de qualidade pós-alinhamento

Para o painel das vias mTOR e GATOR, obtivemos uma cobertura média de pouco mais de 401 ± 51x vezes para as regiões alvo, ao passo que para o exoma a cobertura média foi de pouco mais de 96 ± 49x vezes. As Figuras 3 e 4 evidenciam a cobertura média para cada uma das amostras sequenciadas pelo painel (99,1 ± 0,2% das bases com cobertura superior a 50x) e por WES (52 ± 15% das bases com cobertura superior a 50x), em suas respectivas definições de regiões de captura. A cobertura média é uma métrica que não comporta as especificidades da distribuição da cobertura. Desta forma, as Figuras 6 e 7 mostram perfis de

cobertura para as regiões correspondentes às vias GATOR e mTOR para ambos, painel e exoma, detalhando a distribuição dos perfis de cobertura de cada um dos cromossomos aos quais correspondem estas vias.

A B

Figura 2. Gráficos de controle de qualidade pré-alinhamento mostrando (A) o percentual acumulado de sequências excedendo determinada qualidade e (B) a qualidade média por ciclo da reação de sequenciamento para as amostras sequenciadas por captura no painel.

A B

Figura 3. Gráficos de controle de qualidade pré-alinhamento mostrando (A) o percentual acumulado de sequências excedendo determinada qualidade e (B) a qualidade média por ciclo da reação de sequenciamento para as amostras sequenciadas por captura do exoma.

Figura 4. Cobertura média para as amostras sequenciadas pelo painel de genes das vias GATOR e mTOR.

Figura 6. Histograma para contagem de frequência das coberturas obtidas para a região dos genes da via GATOR para o sequenciamento de amostras por painel e exoma.

Figura 7. Histograma para contagem de frequência das coberturas obtidas para a região dos genes da via mTOR para o sequenciamento de amostras por painel e exoma. Os valores de frequência no histograma estão descritos em escala logarítmica.

Tabela 6. Descrição das principais classificações e anotações para as variantes germinativas do exoma e painel para as vias GATOR e mTOR das amostras de nosso grupo de DCF.

Amostra Experimento Número de Variantes Novas Existentes Inserção Deleção SNV Outras Stop Gain Frameshift insertion Inframe deletion Inframe Missense Synonymous G118-89114 Exoma 623577 78 623499 38646 40260 544121 550 1012 3206 1410 1520 96586 114682 G120-97714 Exoma 802478 254 802224 46299 56715 698687 777 732 1608 1200 1597 95864 112884 G129-17715 Exoma 753262 275 752987 43034 52007 657594 627 742 1668 1083 1406 94922 110320 G133-39015 Exoma 631595 46 631549 32981 39968 558077 569 769 1777 1195 1579 92728 113901 G150-116015 Exoma 664722 109 664613 36391 43063 584616 652 907 1568 1309 1577 94346 114311 P01-44613 Exoma 873098 423 872675 51567 60553 760316 662 763 2316 1216 1549 93113 111205 P02-81410 Exoma 806851 444 806407 45353 54615 706267 616 794 1897 1087 1632 93268 110418 P13-4411 Exoma 2168036 1176 2166860 120328 161285 1884923 1500 968 2365 1148 1888 92119 109989 P16-19313 Exoma 2606394 1403 2604991 146218 182774 2275120 2282 1221 3955 1579 1823 96581 112925 P19-54112 Exoma 2506936 1255 2505681 136092 187262 2181405 2177 836 1996 1042 1827 101135 116766 P20-74212 Exoma 2184792 1290 2183502 116741 153885 1912499 1667 848 1641 1140 1748 92468 106349 G9-21315 Painel 6795 15 6780 908 1393 4486 8 14 75 6 39 373 706 G118-89114 Painel 6032 9 6023 980 1138 3905 9 20 327 43 52 488 691 G120-97714 Painel 6819 2 6817 970 1358 4483 8 7 84 6 44 349 780 G125-15516 Painel 5966 12 5954 772 1175 4005 14 0 38 9 20 393 870 G129-17715 Painel 7177 9 7168 1036 1444 4690 7 5 46 3 30 279 580 G133-39015 Painel 6691 6 6685 928 1391 4356 16 2 23 20 65 336 675 G150-116015 Painel 6559 8 6551 931 1339 4285 4 0 87 11 44 442 755 G157-46916 Painel 7074 40 7034 1001 1464 4607 2 9 36 81 23 483 904 P02-81410 Painel 5493 6 5487 796 1137 3545 15 6 85 25 64 260 494 P19-54112 Painel 6263 13 6250 850 1290 4118 5 9 56 6 32 478 760 P20-74212 Painel 6905 8 6897 921 1475 4501 8 0 67 0 12 460 714

As variantes descobertas foram anotadas utilizando-se o VEP. Foram processadas, aproximadamente, um milhão de variantes para as amostras sequenciadas pelo experimento de captura do exoma e pouco mais de 6,5 mil para aquelas sequenciadas pelo painel. A Tabela 6 sumariza o processo de anotação destas variantes, com dados que relacionam o número de variantes previamente descritas em bancos de dados como dbSNP, número de variantes de uma única base e de inserções e deleções identificadas, bem como as principais classificações de consequências pela anotação do arquivo de variantes.

Correspondência entre variantes germinativas de indivíduos sequenciados por painel e exoma

Como alguns indivíduos foram sequenciados em ambos, painel e exoma (Tabela 2), realizamos uma análise de correspondência entre os achados para cada uma das técnicas de captura empregadas. Para as variantes germinativas do painel e exoma, consideramos os filtros descritos na seção “Busca por variantes germinativas” dos “Materiais e Métodos”.

Como demonstrado na Figura 8A, das 554 variantes encontradas pelo sequenciamento das regiões capturadas do painel, 7,6% (42) das variantes foram encontradas exclusivamente no painel de genes. Ao avaliarmos a cobertura média para estas 42 regiões, temos que ela é muito inferior para o experimento de sequenciamento do exoma, 5,0 ± 37,6x em média para estas regiões, e que seu valor não é consistente entre as amostras, como mostrado na Figura 8B.

A Amostras B

Figura 8. Comparação entre variantes do painel e exoma: (A) Diagrama de Venn para a comparação entre as variantes encontradas pelo sequenciamento por painel de genes e aquelas obtidas pelo sequenciamento do exoma. (B) Avaliação da cobertura no exoma das 42 regiões onde foram identificadas variantes exclusivamente no painel para as amostras sequenciadas por WES. A escala de cores reflete a cobertura para cada uma das amostras no exoma.

Com relação as ferramentas utilizadas para a chamada das variantes em mosaico, no total, todas estas ferramentas interrogaram 3445 variantes, das quais 2951 (85,7%) foram exclusivas de uma das ferramentas e 494 (14,3%) compartilhadas por pelo menos duas delas. A Tabela 7 mostra resultados específicos para cada uma das ferramentas, bem como o percentual de compartilhamento entre os algoritmos utilizados. Dentre as ferramentas avaliadas, o SomaticSniper foi utilizado, contudo, não resultou em nenhuma variante em mosaico para nosso conjunto de amostras. As intersecções destes algoritmos também podem ser vistas no diagrama de Venn da Figura 9. Se considerarmos as coberturas das regiões em mosaico resultantes da aplicação destes algoritmos, temos uma cobertura média de 659 ± 289x para as amostras de sangue periférico e em média 674 ± 302x para as amostras de tecido cerebral.

Figura 9. Diagrama de Venn relacionando as variantes em mosaico encontradas por diversas ferramentas. As cores do

percentual de correspondência.

Ferramenta Total de variantes Exclusivas Compartilhadas

Strelka 88 3 96,6% Mutect2 278 140 49,6% HaplotypeCaller 949 820 13,6% Varscan 1201 1067 11,2% JointSNV 785 777 1,0% LocHap 144 144 0,0%

Anotação, filtragem e priorização de variantes nas encefalopatias epilépticas do desenvolvimento

Como resultado da chamada de variantes do exoma de 122 pacientes do grupo de encefalopatias epilépticas do desenvolvimento, foram identificadas um total de 608634 variantes. Os arquivos foram anotados com o VEP, para possibilitar a filtragem posterior. Considerando o total de variantes, 72,7% (442213) possuíam cobertura maior que 20x, das quais 80332 foram classificadas como regiões frame-shift, missense, nonsense, splicing site e/ou stop-codon. Deste subgrupo, 8005 variantes se encontravam nas regiões correspondentes aos genes de interesse para o painel in silico constituído por 1259 genes. Desta forma, 1,3% das variantes originais foram selecionadas para análise posterior. Ainda a respeito das 8005 variantes, todas foram classificadas como variantes existentes em bancos de dados como dbSNP e ClinVar. Destas variantes, 7439 são SNVs, 278 deleções e 194 inserções, além de 94 outros eventos variantes. A Tabela 8 sumariza as consequências na codificação dos transcritos afetados por estas variantes.

Tabela 8. Consequências na codificação de proteínas pelas variantes nos transcritos de pacientes com encefalopatias epilépticas do desenvolvimento.

Consequência na Codificação Contagem Percentual Variante Missense 7625 68,3% Variante Sinônima 2721 24,4% Ganho de Parada 386 3,5% Frameshift 321 2,9% Outros 80 0,7% Inserção Inframe 36 0,3%

Com relação ao processo de priorização de variantes, dados 171081 transcritos, estimamos as pontuações percentuais atribuídas pelo VVP, como mostrado na Figura 10. Considerando o conjunto dos transcritos com pontuação arbitrária superior a 70% com o VVP, temos que os transcritos em hemizigose, homozigose e heterozigose totalizam, respectivamente, 9594 (5,61%), 32985 (19,28%) e 5832 (3,41%).

Perfil poligênico para as Encefalopatias Epilépticas na Infância

A chamada de variantes de nosso conjunto de dados de 122 pacientes (grupo EED) com o conjunto de 258 amostras do banco de dados de controles do BIPMed-WES (grupo BIPMED), resultou em 1001319 variantes. Posteriormente, consideramos as variantes com cobertura média superior a 20x, e com qualidade maior que 30 e com mais de 90% das amostras com sequências alinhadas nesta região, resultando em 480188 variantes (47,9% das variantes originais). Dada a manifestação neurológica, também consideramos como filtro as variantes em genes associados ao sistema nervoso (listados no Apêndice B), resultando em 53545 variantes (5,3% das variantes originais). Para os modelos de predição construídos no RapidMiner Studio, excluímos as variantes com uma correlação muito baixa ou muito alta em relação a classificação entre nossos dois grupos (EED e BIPMED). Este filtro resultou em 6805 variantes (0,7% das variantes originais).

A Figura 11 mostra a comparação das curvas ROC para todos os modelos considerados em nossa análise: Naive Bayes; Modelo Linear generalizado (GLM) (com regularização); Regressão Logística; Fast Large Margin (com optimização automática); Aprendizagem Profunda, “deep-learning”; Árvore de Decisão (com optimização

Figura 10. Distribuição das pontuações percentuais dadas para as alterações dos transcritos pelo VVP. A linha pontilhada marca o score de 70%.

Impulsionadas por Gradiente (XGBoost) (com optimização automática); Support Vector Machine (SVM) (com optimização automática). Quanto mais próxima a curva estiver do canto superior esquerdo, melhor o modelo. A Tabela 9 sumariza algumas métricas para os modelos implementados. Podemos notar que três modelos obtiveram um AUC menor que 0,6: Fast Large Margin, Random Forest e Árvores de decisão. Desta forma, calculamos os pesos de todas as variantes empregadas para os demais modelos. O peso reflete a importância global de cada variante para a predição da classificação entre os grupos de destino (EED e BIPMED), independente do algoritmo de modelagem.

Tabela 9. Resumo para os modelos de predição utilizados.

Acurácia classificação Erro de AUC Precisão F-score Sensibilidade Especificidade

Deep Learning 72.34% 27.66% 0.752 83.33% 25.00% 15.43% 98.67% Naive Bayes 70.39% 29.61% 0.739 51.33% 27.27% 22.00% 92.20% Modelo Linear Generalizado 70.39% 29.61% 0.739 51.33% 27.27% 22.00% 92.20% Árvore impulsionada por gradiente 71.30% 28.70% 0.733 62.22% 43.16% 41.43% 85.73% Support Vector Machine 69.70% 30.30% 0.686 53.67% 33.12% 25.43% 90.02% Regressão Logística 70.43% 29.57% 0.623 50.00% 27.27% 21.71% 92.44% Fast Large Margin 63.94% 36.06% 0.593 26.43% 23.53% 18.29% 85.27% Árvore de decisão 69.52% 30.48% 0.500 60.00% 15.38% 9.71% 97.49% Random Forest 68.57% 31.43% 0.433 - - 0.00% 100.00%

modelos com AUC da curva ROC maiores que 0,6, selecionamos as variantes com uma importância superior a 0,4, o que resultou em 38 variantes-alvo para refinamento do nosso modelo. Incluímos ao grupo destas 38 variantes, aquelas na vizinhança das alterações em até 500 pares de base e no gene correspondente, resultando em 332 variantes para um segundo modelo, que após considerarmos as variantes com importância maior que 0,4,

resultou em 32 variantes (disponíveis em

https://github.com/mgborges/polygenic_inheritance/blob/master/EEI_targets.vcf). A Tabela 10 e Figura 12 mostram as métricas para os modelos utilizando estes alvos.

Tabela 10. Resumo para os modelos de predição utilizados após utilização de nossos alvos prioritários. Acurácia classificação Erro de AUC Precisão F-score Sensibilidade Especificidade Support Vector Machine 84.29% 15.71% 0.880 83.22% 74.45% 68.29% 92.81% Naive Bayes 80.78% 19.22% 0.882 69.24% 70.33% 73.43% 83.04% Modelo Linear Generalizado 80.78% 19.22% 0.876 79.70% 66.19% 58.57% 91.40% Fast Large Margin 80.74% 19.26% 0.885 75.89% 67.19% 62.57% 90.48% Deep Learning 80.56% 19.44% 0.856 64.06% 69.85% 78.29% 81.65% Árvore impulsionada por gradiente 77.88% 22.12% 0.831 73.00% 59.00% 52.00% 89.04% Regressão Logística 77.10% 22.90% 0.883 69.67% 61.41% 56.57% 87.15% Random Forest 76.97% 23.03% 0.844 74.33% 50.29% 38.29% 94.39% Árvore de decisão 70.65% 29.35% 0.682 59.24% 53.86% 52.29% 79.87%

Figura 12. Comparação das curvas ROC para os modelos implementados após utilização de nossos alvos prioritários.

Utilizamos o ConsensusPathDB-human para realizar as análises de sobre-representação dos genes considerados. Obtivemos como resultado 72 entradas para o conjunto de genes baseados em vizinhança enriquecidos (NESTs), 3 vias enriquecidas, e 33 entradas de conjuntos baseados em ontologia genética enriquecida. Resultados detalhados desta análise se encontram disponíveis em https://github.com/mgborges/polygenic_inheritance. Dentre as vias enriquecidas, estão: Neurexinas e neuroliginas; Interações proteína-proteína nas sinapses; e Sinapse glutamatérgica.

Avaliação do viés de cobertura em variantes clínicas do ClinVar em bancos de dados públicos

A profundidade média de sequenciamento das 4543 variantes selecionadas do ClinVar diferiu significativamente entre os centros de sequenciamento entre as amostras dos quatro centros de sequenciamento inclusos neste estudo (BCM, Baylor College of Medicine; BI, Broad Institute; BGI, Beijing Genome Institute; e WUGC, Washington University Genome Center), comparações pareadas com o teste de Mann-Whitney- Wilcoxon (p < 0,001), com uma profundidade média de 82,8 ± 67,6 para o BCM, 123,0 ± 85,6 para o BGI, 86,6 ± 79,2 para o BI e 49,4 ± 33,8 para o WUGSC (Figura 13A). A análise de componente principal corrobora que o padrão dos clusters de profundidade varia de acordo com cada centro de sequenciamento, com 69% da variância explicada pelos dois primeiros componentes principais na análise de PCA (Figura 13B).

Além disso, analisando a distribuição da profundidade de sequenciamento das 450 variantes com maior variância, poderíamos atribuir corretamente 96,9% das amostras ao seu centro de sequenciamento quando considerarmos cinco clusters para os ramos do dendrograma representado na Figura 14. Esse achado também apoia a existência de diferentes padrões de cobertura para cada centro de sequenciamento, evidenciado na cobertura individual de cada uma das amostras consideradas nestas análises.

Figura 13. Variação na profundidade do sequenciamento por diferentes centros de sequenciamento. (A) distribuições de densidade para regiões do ClinVar com profundidade de 0 a 400x. (B) A análise de componentes principais (PCA) com uma variância explicada de 69,0% para os dois primeiros componentes.

Figura 14. Heatmap mostrando variação em profundidade em centros de sequenciamento para as 450 variantes com maior variância entre amostras. Cada linha representa uma amostra de um dos centros de sequenciamento. As colunas representam cada uma das variantes, com seu impacto classificado como alto, moderado, baixo ou modificador, que é um indicador de que o impacto da codificação não influencia a profundidade de cobertura (p > 0,05 para cada comparação pareada).

Realinhamento ao redor de regiões sabidamente variantes

Aplicamos três protocolos de análise diferentes nos dados de WES: (i) chamada de variantes na ausência de quaisquer etapas de realinhamento e recalibração, (ii) variantes identificadas usando o realinhamento local e a recalibração de qualidade usando como alvo para isto as variantes identificadas pelo projeto 1K Genomas, e (iii) variantes identificadas usando o realinhamento local e a recalibração de qualidade usando como variantes comuns de referência, inserções e deleções depositadas no LatinGen. Os diferentes protocolos foram aplicados a quatro grupos populacionais distintos: BR, PEL, CLM e GBR.

Globalmente, nossos resultados mostraram uma concordância variando de 93,32% a 97,48% entre os três diferentes protocolos de chamada de variantes em todos os grupos populacionais. No entanto, quando discordaram, verificou-se que havia 1,38% a 5,30% das variantes identificadas somente quando não foi realizado nenhum realinhamento nem recalibração. Além disso, ao comparar todas as variantes em nosso conjunto de

variantes identificadas exclusivamente usando os alvos do Projeto 1K Genomas e 0,2% a 0,4% das variantes identificadas apenas com LatinGen (Figura 15). Notamos que 0,38% a 0,64% das variantes encontradas usando o LatinGen como a referência foram identificadas igualmente usando os alvos do Projeto 1K Genomas como uma referência. Finalmente, 0,42% a 0,59% das variantes identificadas pelo LatinGen foram igualmente identificadas ao não utilizar nenhum procedimento de pós-processamento. A Figura 15 mostra um resumo das estatísticas usando um diagrama de Venn para os resultados obtidos nos quatro grupos populacionais. Não encontramos diferença na distribuição das variantes pelos três protocolos e entre as quatro populações estudadas (p-valores > 0,4).

Uma análise mais detalhada do grupo das variantes identificadas usando os três protocolos está descrita na Tabela 11. Globalmente, a maioria dessas variantes foram anotadas como conhecidas (90,54%, em média). Identificamos uma relação de novidade mais baixa em todos os grupos da população ao usar como alvos para o realinhamento as variantes do LatinGen, variando de 3,79% a 6,18%. Além disso, observou-se um menor número de novas variantes na população do BR, que também apresentou um menor valor de frequência do menor alelo global (GMAF) (0,1588), em relação as demais populações (média de 0,3206) (p-valor < 0,05 para as comparações pareadas). A Figura 16 retrata essas distribuições com violin plots para a distribuição da GMAF.

Figura 15. Apresentação do realinhamento local e recalibração de qualidade usando alvos conhecidos de alta qualidade do projeto 1K Genomas e o LatinGen aplicado a quatro grupos populacionais: brasileiros (BR), colombianos (CLM), peruanos (PEL) e britânicos (GBR). Interseção entre as variantes denominadas pelas três metodologias diferentes de realinhamento e recalibração empregadas: (i) a ausência do realinhamento e da recalibração da qualidade; contra o realinhamento e a recalibração da qualidade utilizando os alvos selecionados das bases de dados (ii) do Projeto 1K Genomas; e (iii) do LatinGen.

Figura 16. Distribuição de frequências alélicas globais para a comparação entre os subconjuntos de variantes sem realinhamento ou com recalibração apenas; aqueles do realinhamento e recalibração com os alvos do 1K genomas e; aqueles do realinhamento e recalibração com LatinGen para quatro grupos populacionais (BR, CLM, PEL e GBR).

Tabela 11 – Descrição detalhada das variantes e anotação identificadas exclusivamente durante a ausência de realinhamento ou recalibração, realinhamento e recalibração com o 1K Genomas na ausência das variantes do LatinGen e, realinhamento e recalibração utilizando o LatinGen, na ausência dos alvos de realinhamento do 1K Genomas.

Grupo BR Grupo CLM Grupo PEL Grupo GBR

Grupos Sem realinhamento ou recalibração Genomas 1K LatinGen Sem realinhamento ou recalibração Genomas 1K LatinGen Sem realinhamento ou recalibração Genomas 1K LatinGen Sem realinhamento ou recalibração Genomas 1K LatinGen Variantes totais 225143 4996 26432 7103 710 2452 8486 590 2378 20781 1258 5697 Novas 14,21% 31987 18,17% 908 6,18% 1633 6,73% 478 6,62% 47 3,79% 93 9,19% 780 18,98% 112 8,20% 195 5,22% 1085 11,92% 150 4,28% 244 Existente 85,79% 193156 81,83% 93,82% 4088 24799 93,27% 6625 93,38% 96,21% 663 2359 90,81% 7706 81, 2% 478 91,80% 2183 94,78% 19696 88, 8% 1108 95,72% 5453 Anotadas com o GMAF do 1K Genomas 138131 2595 21167 4172 299 1593 5001 235 1550 14770 619 4443 61,35% 51,94% 80, 8% 58,74% 42,11% 64,97% 58,93% 39,83% 65,18% 71, 7% 49,21% 77,99% Média GMAF 0,1733 0,1665 0,1367 0,2315 0,4138 0,3143 0,3323 0,4014 0,3327 0,2706 0,3253 0,2636 Desvio padrão do GMAF 0,2321 0,2106 0,1644 0,2403 0,2960 0,2833 0,2734 0,2791 0,2797 0,2352 0,2450 0,2276 Genes sobrepostos 28081 2535 10256 4751 503 1740 4941 342 1546 9130 782 3266 Transcrições sobrepostas 30383 2574 10742 4780 503 1749 5020 345 1556 9461 783 3368 Reg. Reguladoras sobrepostas 6432 201 1433 121 16 80 235 11 65 988 42 296 Consequências na codificação Variante missense 54% 42% 63% 60% 67% 42% 59% 50% 49% 62% 69% 59% Variante sinônima 27 38% 31 23 33% 52% 32% 22 32% 33% 23 39% Deleção Inframe 2 4 2 7 0 6 6 6 8 1 8 0 Inserção Inframe 3 4 1 1 0 0 1 0 0 0 0 0 Variante Frameshift 8 6 1 6 0 0 2 22 8 2 0 1 Variante de parada 2 2 2 3 0 0 0 0 3 2 0 0 Outros 4 4 0 0 0 0 0 0 0 0 0 1

DISCUSSÃO

Anotação, filtragem e priorização de variantes como alternativas para acelerar o diagnóstico em medicina genômica

A chamada de variantes feita por diversas ferramentas geralmente resulta em uma lista de alterações em um formato comum, chamado de VCF (Variant Call File), que possui uma estrutura própria e comum entre as ferramentas (146)⁠. Contudo, o formato VCF não é intuitivo para manipulação para usuários sem determinado conhecimento do formado e dos diversos campos contidos dentro do arquivo. Neste sentido, se desenvolvem formas de lidar com este arquivo, manipulando seus campos e através da inserção e filtragem de informações relevantes (151, 199).

Com relação a anotação de variantes, o VEP é um programa de código aberto distribuído e mantido pelo Ensembl que agrega diversos bancos de dados para análise, anotação e priorização de variantes em ambas as regiões codificantes e não- codificantes (41). O VEP anota variantes utilizando informações a respeito dos transcritos; regiões reguladoras; frequência alélica de uma variante em populações de referência; citações em bancos de dados como PubMed; relevância clínica; e previsões de consequências para os transcritos afetados pela dada variante. Em sua versão executável, chamada “VEP script”, esta ferramenta pode aplicar as anotações em um ambiente paralelizável de alto desempenho, podendo ou não realizar consultas on-line aos servidores de dados.

Dentre as ferramentas existentes para filtragem e manipulação de um arquivo VCF, o BrowseVCF apresenta vantagens em sua implementação, como fatores ligados a sua performance; fácil instalação local em diferentes sistemas operacionais; adaptação a diferentes infraestruturas de armazenamento e processamento; funcionalidades interativas para manipulação dos filtros, dentre outros (13). De nossos resultados, temos que a filtragem das variantes por cobertura, consequência de transcrição ou região-alvo de um painel in silico reduz para cerca de 2% as variantes de um experimento de sequenciamento. Contudo, mesmo depois da grande redução das posições alvo, a associação entre fenótipo genótipo pode continuar sendo difícil, onde outros passos de análise também podem ser aplicados, como a priorização de variantes.

A priorização de variantes aplicada ao processo de diagnóstico se constitui nos esforços em determinar quais seriam as variantes mais prováveis em explicar o fenótipo apresentado, quando comparado a um genoma ou população de referência (200, 201). Estas ferramentas utilizam desde informações relativas à conservação da estrutura das proteínas, conservação filogenética, frequências alélicas de populações específicas, dados genômicos funcionais entre outras anotações. A agregação destas informações é possível pela consolidação de plataformas que dão suporte a estas associações genótipo-fenótipo, se constituindo em ferramentas muito dinâmicas e multifatoriais (5, 46, 202)⁠. Contudo, apesar do progresso feito, o processo de identificação de variantes causais ainda resulta em um elevado número de variantes de significado incerto (VUS, sigla em inglês para Variant of Uncertain Significance) (203)⁠. De fato, uma variante que modifica um dado transcrito de um gene não é necessariamente prejudicial à saúde de um indivíduo ou pode não estar diretamente relacionada ao fenótipo apresentado. Uma evidência deste fato pode ser notado ao termos em mente a recomendação de abandonar o termo “prejudicial” (damaging) em detrimento do termo “patogênico” para descrever uma variante prejudicial que é potencialmente causadora de doenças (187, 204). Desta forma, entendemos que a

Documentos relacionados