• Nenhum resultado encontrado

1. INTRODUÇÃO

3.2. ESTUDO DE CASO: DIFERENÇAS E SEMELHANÇAS DE ASSINATURAS DE

TROMBOEMBOLISMO VENOSO E DOENÇA CARDIOVASCULAR USANDO DADOS DE REPOSITÓRIOS PÚBLICOS

Aspectos Éticos

Por se tratar de um estudo de meta-análise de dados públicos, não foi necessária a obtenção de autorização do comitê de ética em pesquisa, na medida em que o acesso a nenhuma das bases utilizadas previa novo consentimento. Critérios de Inclusão dos Estudos

A pesquisa partiu de uma busca na base de dados pública de expressão gênica o “Gene Expression Omnibus” (GEO) (http://www.ncbi.nlm.nih.gov/geo/) do NCBI por estudos sobre trombose venosa e arterial. A busca foi complementada na base Array Express, sem adição de estudos adicionais. As palavras chaves

utilizadas foram: “venous thrombosis”, “venous thromboembolism”, “myocardial infarction”, “stroke”, “coronary ischemia”, “angina”, “atherosclerosis”, “peripheral arterial disease” ou “thrombosis”.

Os critérios de inclusão foram: (1) dados de microarray obtidos de amostras humanas; (2) fonte de RNA restrita a sangue total ou populações de células sanguíneas circulantes; (3) estudos incluindo pacientes com a doença e controles saudáveis, de modo que a expressão diferencial de cada gene foi avaliada nas mesmas condições experimentais; (4) disponibilidade de metadados permitindo a definição se os eventos trombóticos haviam ocorrido em leito venoso ou arterial; e (5) conjuntos de dados de estudos publicados em periódicos revisados por pares. No decorrer de nosso estudo, também restringimos nossa análise a estudos usando a mesma plataforma de microarray, de modo a limitar a heterogeneidade.

Etapas da Meta-Análise

Todas as análises foram feitas através de scripts produzidos na linguagem R (163), no ambiente R Studio versão 3.4.4. Inicialmente foram instalados os pacotes de análise de dados exigidos pela estratégia de bioinformática desenhada para a meta-análise (disponível no link: https://github.com/Bidossessih/Meta-analysis), seguida pelo carregamento dos dados. Estes pacotes fazem parte dos projetos R e/ou Bioconductor, uma comunidade de software de desenvolvimento aberto que fornece ferramentas para a análise e compreensão de dados genômicos de alto rendimento (164). Na figura 9 é possível ver a sumarização das etapas de processamento e análise descritas a seguir.

Figura 9: Workflow do Processamento dos Dados

Selecionamos as bases de dados no GEO, após essa seleção fizemos o pré-processamento das bases de dados selecionadas no ambiente de programação estatístico R Studio, que gerou uma análise de correlação. A meta-análise propriamente dita também foi feita no R Studio e gerou uma lista de genes, as quais usamos para realizar análise funcionais de vias, ontologias e tecidos, assim como a discussão fisiopatológica. Fonte: A autora.

Pré-processamento

Na etapa de pré-processamento, todos os dados brutos de microarray foram pré-processados usando o método Robust Multichip Average (RMA) (165) o qual é um algoritmo usado para criar uma matriz de expressão a partir de dados da plataforma Affymetrix implementado no pacote oligo (166). Para cada conjunto de dados, o algoritmo realiza a subtração do background, que visa minimizar os artefatos técnicos inerentes à técnica de microarray. As amostras são atribuídas às classes (ou seja, controles e pacientes), e comparações diferenciais de expressão foram realizadas para cada conjunto de dados usando um modelo linear implementado no pacote limma (167). Esta análise estima os coeficientes que correspondem às relações da expressão de pacientes versus controles. Também aplicamos a estatística Bayes empírica para estimar a expressão mais precisa de cada gene. Para tornar comparáveis todos os conjuntos de dados, os probesets foram renomeados para Ensembl gene ID usando o pacote biomaRt (168). Os genes comuns a todos os conjuntos de dados foram então determinados e usados para mesclar coeficientes estimados, bem como dados de expressão em duas matrizes pré-processadas diferentes para análises posteriores.

Meta-análise

A meta-análise foi realizada com o pacote RankProd, uma ferramenta estatística bastante utilizada para detectar características diferencialmente expressas em experimentos moleculares em estudos de ciências ômicas (169). A técnica identifica os genes diferencialmente expressos (DE), ou seja, regulados para cima (up regulated) ou para baixo (down regulated). O algoritmo deste pacote adapta o método de produção de classificação inicialmente projetado para análise de experimento único para integrar estudos de origem múltipla. É um método não- paramétrico que detecta genes consistentemente classificados como DE,

comparando os pacientes aos controles entre os conjuntos de dados. Cem permutações foram realizadas para calcular o valor p e a taxa de descoberta falsa (FDR).

A lista de genes foi filtrada para incluir apenas os genes que foram regulados para cima ou para baixo na mesma direção em todos os cinco estudos.

Análise de Correlação dos Níveis de Expressão Gênica em DCV e TEV

A fim de obter informações adicionais sobre as semelhanças e diferenças de expressão entre TEV e CVD, determinamos a correlação do nível de expressão de cada gene nos cinco estudos incluídos em nossa meta-análise. Os coeficientes de correlação de Pearson foram calculados entre os níveis de expressão dos genes em cada estudo e, em seguida, representados em formato gráfico. Estas análises também foram feitas no software R versão 3.4.4.

Análises funcionais (Gene Set Analyses)

A análise funcional foi feita a partir da lista de genes identificada pela meta- análise, usando apenas os genes com expressão aumentada. A justificativa para esta escolha foi baseada na observação que o padrão de expressão de um subconjunto de genes pode capturar informações contida nos demais genes de uma condição (170,171). Além disso, esta estratégia foi utilizada em oposição ao uso de todos os genes diferencialmente expressos, também com o objetivo de minimizar o impacto negativo desta abordagem na sensibilidade da análise, como já sugerido experimentalmente (172). No entanto, a escolha apresenta como limitação a perda de informações da análise separada dos genes diferencialmente expressos negativamente, não realizada. Esta limitação é novamente citada na discussão.

Para as análises funcionais utilizamos a ferramenta EnrichR, baseada na web, que direciona a lista de genes para 143 bibliotecas curadas de análise funcional tais como: KEGG, Wikipathway, Reactome e etc., fornecendo uma visão ampla dos resultados funcionais possíveis (173). Sua principal vantagem é a análise conjunta de várias bibliotecas, reduzindo o risco de achados específicos a uma única biblioteca, o que é uma dificuldade destas análises.

Como o objetivo de evitar estes falsos-positivos, utilizamos critérios mais rigorosos para valorizar um termo funcional em todas estas bibliotecas, incluindo nos resultados apenas aqueles que: (i) foram listados entre os 10 mais significativos (com base no valor p) para cada biblioteca; e (ii) que foram identificados em pelo

menos duas bibliotecas da mesma categoria. Para termos de ontologia gênica (que representa uma categoria única), os 5 principais termos com um valor de p <0,0001 (ajustado para múltiplas comparações) foram incluídos.

Avaliação de Genes com Expressão Divergente entre TEV e DCV

Uma lista de genes com expressão divergente entre TEV e as três bases de dados de DCV (IS, IAM e DAOP) foi obtida selecionando todos os genes com uma variação superior a 1,5 que foram regulados positivamente em VTE e regulados negativamente em IS, IAM e PAOD; assim como genes com valores menores que 0,8 que foram regulados negativamente em VTE e regulados positivamente em IS, AMI e PAOD. Estas listas de genes foram utilizadas para análises funcionais baseadas em FAIME (Análise Funcional de Resultados Individuais de Microarray/RNAseq), que é uma estratégia diferente da usada anteriormente. O algoritmo FAIME é implementado no pacote seq2pathway (174) e calcula os efeitos quantitativos cumulativos de genes dentro da Ontologia de Genes com base na expressão (log2) de cada amostra individual. O resultado foi agrupado com base na distância euclidiana e plotado em um heatmap com os escores FAIME.

Análise Estatística

As análises foram realizadas com pacotes disponíveis em R e/ou Bioconductor, conforme já detalhado em cada um dos itens.

4. RESULTADOS

Documentos relacionados