• Nenhum resultado encontrado

Análise integrativa do transcriptoma com dados demográficos, clínicos e laboratoriais

5. MATERIAL E MÉTODOS

5.6. Análise dos dados

5.6.5. Análise integrativa do transcriptoma com dados demográficos, clínicos e laboratoriais

maps

Os genes significativos e diferencialmente expressos obtidos por DBF-MCL e rank

products foram inicialmente submetidos ao agrupamento hierárquico, com distância métrica de Pearson, utilizando o software Cluster 3.0 (EISEN et al., 1998). O arquivo gerado, em extensão “.cdt”, pode ser usado como arquivo de entrada no software Genomica (SEGAL et

al., 2004), que permite a construção dos module maps.

A construção dos module maps também utiliza mais duas matrizes binárias (0 e 1) para o cálculo. Foram utilizados comandos em linguagem PERL para a geração dessas matrizes. No presente trabalho, o array set corresponde às características demográficas, clínicas, laboratoriais e terapêuticas dos paciente (Figura 5), ao passo que o arquivo gene set contém genes classificados por categoria de anotação e será descrito com mais detalhes posteriormente.

M a t e r i a l e m é t o d o s | 63

Inicialmente, o algoritmo Genomica realiza filtragem, selecionando apenas genes que foram induzidos ou reprimidos com variação de expressão (fold change) ≥ 1.0. Posteriormente, os dados são submetidos à análise estatística hipergeométrica por teste de

Fisher modificado, com correção pela taxa de falsa descoberta (p ≤ 0.05, FDR ≤ 0.05), objetivando comparar duas categorias: genes modulados (filtrados) que fazem parte de uma anotação gênica prévia (gene set) com dados que os caracterizam (array sets). Com essa estratégia é possível gerar grupos de genes compartimentalizados, organizados em módulos (module maps), que discriminam padrões gênicos de variáveis de acordo com o padrão do paciente, ou seja, a comparação (estatística hipergeométrica) de gene sets com array sets em etapas, conforme descrito na Figura 7.

 

Figura 7. Pipeline representativo da análise integrativa dos perfis transcricionais com variáveis demográficas, clínicas, laboratoriais e terapêuticas, usando a estratégia de module maps. Em A) Genes filtrados por fold change são selecionados quanto à sua representatividade nos gene sets; B) Genes identificados nas categorias fornecidas do gene set são separados em módulos de expressão; C) Os módulos são re-agrupados; D) Os módulos significativos são finalmente comparados com os array sets, gerando os heatmaps finais. Adaptado de (SEGAL et al., 2004).

M a t e r i a l e m é t o d o s | 64

Além da filtragem por fold change, outros parâmetros também foram utilizados nas diferentes etapas da construção dos module maps, conforme descrito na Figura 8.

 

Figura 8. Parâmetros utilizados na análise de module maps.

5.6.5.1. Variáveis do tipo array set

As variáveis usadas para criar os arrays sets incluem dados demográficos (idade e sexo), clínicos (tempo de doença, obesidade, tempo e número de gestações), dados laboratoriais (glicose sérica e níveis de hemoglobina glicada) e padrões de tratamento (uso de hipoglicemiantes, como insulina, metformina e outras drogas). As variáveis foram assinaladas por valores binários, conforme descrito anteriormente e representado na Figura 5.

M a t e r i a l e m é t o d o s | 65

5.6.5.2. Variáveis do tipo gene set

Esta etapa corresponde à anotação gênica prévia, na qual os genes são separados por categorias de interesse na forma de matrizes binárias para compor os arquivos utilizados para a construção dos module maps. Considerando que cada tipo de diabetes possui atuação de diferentes tipos celulares na sua etiologia, essas células podem acarretar diferenças de expressão gênica entre os tipos. Assim, conjuntos de perfis de expressão de células do sistema imune foram utilizados para comparação com os dados deste estudo. Além disso, dados disponíveis em bancos de dados sobre o diabetes por GWAS, bem como listas gênicas obtidas por meta-análises do diabetes e complicações diabéticas também foram consideradas neste trabalho.

Conjuntos gênicos específicos de células imunológicas foram obtidos por re-análise de dados de microarrays oriundos do Immunological Project (ImmGen) (“Immunological Genome Project (ImmGen)”, [S.d.]). O ImmGen é um projeto que integra onze centros de pesquisa para obtenção de todos os tipos celulares de linhagens linfoides e mieloides por separação magnética em diferentes estágios de diferenciação, maturação, ativação, estágios efetores, localização tecidual e variações genéticas (HENG; PAINTER, 2008). O ImmGen é considerado, atualmente, como o maior projeto de imunologia do mundo, integrando os centros que dominam as técnicas de separação celulares mais rigorosas, com duas etapas de citometria de fluxo consecutivas para assegurar a pureza das amostras. No presente trabalho foi analisado um compêndio de dados de microarrays Affymetrix Gene 1.0ST array de células imunes murinas, gentilmente cedidos pelos integrantes do projeto, respeitando todos os critérios de política de privacidade. Foram cedidas 66 hibridações (dados brutos) de

microarrays de 12 tipos celulares do sistema imune:  Macrófagos;

M a t e r i a l e m é t o d o s | 66

 Linfócito B1a;  Linfócito B1b;

 Linfócito B foliculares (LB-Fo);

 Linfócito B da zona marginal (LB-ZM);

 Linfócito T CD4+ naive;  Linfócito T CD4+ de memória;  Linfócito T CD8+ naive;  Linfócito T CD8+ de memória;  Célula dendritica;  Linfócito iNKT;

 Célula T regulatória (Treg).

Para a obtenção das assinaturas das células imunes foi, inicialmente, realizada normalização (razão) pela mediana de todos os dados, seguida de um corte por fold change ≥ 2. Para a obtenção de assinaturas humanas, os genes foram submetidos ao banco de dados Homologene, para a busca de genes ortólogos (“HomoloGene Home”, [S.d.]) e a correspondência dos mesmos com assinaturas humanas pelo TranscriptomeBrowser (“TranscriptomeBrowser: data mining of public microarray data.”, [S.d.]).

Conjuntos gênicos relacionados à doença foram obtidos a partir de bancos de dados públicos da enciclopédia Human Genome Epidemiology (HuGE) Navigator, o GWAS

integrator (“HuGENavigator|GWAS Integrator|Search”, [S.d.]) e o Phenopedia (“HuGENavigator|PhenoPedia|Search”, [S.d.]).

M a t e r i a l e m é t o d o s | 67

O GWAS integrator é uma compilação de genes fornecidos e filtrados a partir do catálogo GWAS, bem como os bancos originais HapMap, SNAP e HugeNavigator (YU et al., 2011). Até o momento, estão disponíveis dados apenas do DM1 e DM2, que foram consideradas para esse estudo.

O Phenopedia é um banco de dados de estudos de associação genética e meta- análises. As listas gênicas são fornecidas pelas categorias de doenças específicas e complicações relacionadas (YU et al., 2010). As listas relacionadas com o diabetes mellitus, são:  Status pré-diabético;  Diabetes;  DM1;  DM2;  DMG;  Complicações diabéticas;  Obesidade;  Angiopatia;  Cetoacidose;  Nefropatia;  Neuropatia;  Retinopatia.

Todos os genes utilizados neste trabalho para construção dos gene sets, oriundos do

M a t e r i a l e m é t o d o s | 68

Documentos relacionados