• Nenhum resultado encontrado

UBE2NL MAP3K14 RRAGA TRIP10 CERS5 MARCH9 COX20 DUSP15 ABCC2 MIA3 WDR48 FAM126B PSD2 VPS37B NOC4L

Tabela 18 - Enriquecimento dos alvos de membrana dos principais nós de citoplasma.

ID Name pValue Genes from

Input

Genes in Annotation Genes alvos do Nó 15 (PC)

GO:0009267 cellular response to starvation 1,70E-05 4 128

GO:0042594 response to starvation 5,18E-05 4 170

GO:0031669 cellular response to nutrient levels 6,47E-05 4 180

GO:0031668 cellular response to extracellular stimulus 1,22E-04 4 212

GO:0030320 cellular monovalent inorganic anion homeostasis 2,74E-04 2 20

Genes alvos do Nó 37 (KATNAL2)

GO:0009267 cellular response to starvation 8,63E-05 3 128

GO:0042594 response to starvation 2,00E-04 3 170

Genes alvos do Nó 66 (HSPA9)

Sem enriquecimento

Genes alvos do Nó78 (UBE2NL)

GO:0000323 lytic vacuole 5,05E-04 4 539

GO:0005764 lysosome 5,05E-04 4 539

GO:0005773 vacuole 1,32E-03 5 1223

GO:0030692 Noc4p-Nop14p complex 1,47E-03 1 2

GO:0030689 Noc complex 2,94E-03 1 4

Nota-se que processos ligados à falta de nutriente aparecem de forma significativa em mais de um nó.

Entre os enriquecimentos propostos aparecem três processos biológicos importantes para o metabolismo celular: catabólise, resposta à falta de nutrientes e processos envolvidos no ciclo celular. É provável que todos esses processos estejam intrinsicamente relacionados à questão do volume celular. Por exemplo, uma célula em processo de divisão celular está diretamente envolvida com mudanças em seu volume. Células muito grandes podem ter dificuldades para suprir toda a necessidade nutricional para manter suas funções logo há uma relação entre sensores de fata de nutrientes e volume celular. Logo, os genes aqui encontrados e suas relações, se mostram promissores para indicar algum mecanismo de controle e monitoramento do volume celular.

5.2.15 Determinação dos volumes pela expressão

A partir dos m e b calculados, de modo geral (utilizando todos os subgrupos de uma só vez) foram selecionados os 70 genes que sofrem efeito do volume e possuam CV baixo. Como a expressão desses genes variam com o volume, é possível, através dessa expressão, determinar qual seria o volume mais provável para aquela amostra.

Foi utilizada uma estratégia muito similar à descrita na Seção 5.2.8, utilizando a minimização de uma função custo. Porém, neste caso, a função “optimize”, no R, determina qual é o volume onde a função-custo seja mínima. Para isso utiliza-se as constantes m e b desses 70 genes como guia da expressão.

Utilizando todos os 70 genes para determinação do volume, obteve-se a estimativa dos volumes das 91 amostras e então comparou-se com os volumes reais (Figura 44).

Figura 44 – Comparaçao dos volumes estimados pela expressão, versus volumes reais, para 91 amostras. Para se estimar tais volumes utilizou-se a expressão de 70 genes cujo comportamento possui dependenca do volume.

A partir do gráfico comparativo dos volumes (reais versus estimados) é possível calcular o índice de espalhamento dos resultados em relação a diagonal de identidade. O espalhamento é computado da seguinte forma: para cada ponto abaixo da diagonal, o valor do volume real é dividido pelo valor do volume estimado. Para os pontos acima da diagonal, deve-se computar o valor do volume estimado dividido pelo valor do volume real, ou seja, o inverso. Assim os valores sempre serão maiores do que 1. Tais valores são computados para as 91 amostras e então se obtém a média. Esse valor médio representa o quanto há de espalhamento, dos pontos, em relação a diagonal.

Então, o mesmo processo descrito anteriormente é repetido porem dessa vez, utilizando apenas um gene como guia, ao invés de 70 genes. E obtém-se o índice de espalhamento dos resultados. Repete-se o processo, porém agora com dois genes como guia, obtendo o índice de espalhamento correspondente. Repete- se esse procedimento até chegar nos 70 genes novamente. O resultado dos índices de espalhamento são plotados (Figura 45).

Figura 45 – ìndice de espalhamento em relação a diagona em função dos números de genes utilizados no processo de estimativa dos volumes celulares pela expressao gênica.

Com isso, observa-se que quanto mais genes utilizados como guia, melhor a estimativa do volume, porem o resultado do espalhamento tende a uma assíntota horizontal. Então parece não ser necessário utilizar mais do que 70 genes para se estimar o volume. Tais genes (70 genes) estão indicados na Tabela 19.

Com essa abordagem, de se estimar o volume celular de amostra apenas pela análise de suas expressões genicas, é possível normalizar tais amostras pelo volume, como feito nesse trabalho, mesmo não tendo outra forma de obter o volume dessas amostras.

Tabela 19 – Símbolos dos 70 genes mais propícios para se estimar o volume celular médio de uma amostra de LLA.

1 SNX7 C1orf54 TBX19 SOX13 DISP1 PSEN2 EFCAB2 OR2L3 TCEA3 AUNIP 11 ORC1 ETNK2 KIAA1217 CKS1B CC2D2B FRAT1 ABCC2 PLPP4 TACC2 SLC16A9 21 SNORA19 OR51T1 DYNC2H1 TMEM45B EXPH5 FLJ13224 MARCH9 MYRFL SPIC CAB39L 31 UGGT2 RNASE10 ARHGEF40 BBOF1 LRRC49 NIPA1 FMN1 SHF TTC23 LOC81691 41 MT1M CMTM4 C17orf53 MEIOC EME1 HNF1B GNGT2 CYP4F35P SNRPD1 FHOD3 51 KATNAL2 LINC00470 ZNF221 LOC1001283 SCGB2B2 C19orf48 CHCHD5 CCDC150 CPS1 MATN3 61 POMC CAPN13 NEB TTC30B MIRLET7C FAM3B APOBEC3H MEI1 GXYLT2 KBTBD12

5.3 Parte III – Genes negligenciados na Análise Supervisionada

Nesta parte, determina-se a consequência do efeito do volume sobre a expressão gênica nas análises estatísticas supervisionadas tradicionais.

5.3.1 Divisão do domínio do volume e simulação computacional

Os próximos procedimentos, nesse trabalho, consistem em identificar o efeito, interferência, da variabilidade da expressão gênica, provinda dos diferentes volumes celulares envolvidos, nas análises estatísticas tradicionais e então propor soluções de análise que compensem esse efeito. Assim para diversos cálculos e análises (análises supervisionadas e não-supervisionadas), são necessários procedimentos onde se divide o domínio do volume em seções menores. Além disso, simulações de amostras, a partir dos parâmetros (já obtidos) das curvas (m, b, desvio padrão, etc.), também serão necessários para alguns cálculos.

5.3.2 Correlação entre os genes

Uma vez obtido as constantes, m e b, e o ruído (resíduos) para todos os genes, é possível obter a correlação entre os genes (Figura 46). Esta correlação também é necessária para simulações de amostras.

Figura 46 – Exemplo de correlação entre genes utilizando como base as curvas encontradas para cada gene. A) Uma alta correlação positiva entre os genes. B) Uma alta correlação negativa. As correlações são obtidas a partir dos resíduos, de acordo com curvas da expressão gênica em função do volume, obtidas anteriormente.

Com as constantes (m e b para todos os genes e e ), a correlação entre os genes e o desvio padrão da expressão é possível simular uma expressão gênica (uma amostra simulada) para um determinado ponto do domínio do volume.

A correlação entre todos os 32321 genes é muito custosa. Isso geraria uma matriz de 32321x32321 elementos oque computacionalmente é inviável. Desta forma, a matriz de correlação foi dividida em 10 submatrizes, sob a diagonal, de 3000x3000 elementos cada (Figura 47).

Figura 47 – Matriz de correlação dos 30000 genes. Eliminou-se dos calculos, os ultimos 2321 genes do array. O cálculo da matriz completa é inviável. Então, calcula-se apenas as submatrizes de 3000x3000 elementos cada, sob a diagonal da matriz principal. O resto dos elementos da matriz principal não serão utilizados.

Desta forma a expressão simulada a partir dessas matrizes de correlação é desacoplada entre esses 10 subgrupos de genes. Assim, os 3000 primeiros genes serão simulados de maneira correlacionada entre si. Os próximos 3000 genes também serão correlacionados entre si e assim por diante, porem esses grupos não estarão correlacionados entre si. Esta não é a maneira ideal, pois não correlaciona todos os genes de uma vez, porém, é a maneira possível de se implementar computacionalmente devido a restrições de recursos computacionais neste projeto. Importante ressaltar que foram utilizados, a partir desse ponto 30000 genes e não mais 32321 genes. Os últimos 2321 genes do array foram eliminados da análise. Isso também para poupar gastos computacionais e facilitar cálculos.

São obtidas seis (6) matrizes de correlação, cada uma com 10 submatrizes. Ou seja, uma matriz para cada subgrupo molecular.

5.3.3 Simulação pela Decomposição de Cholesky

A simulação da expressão gênica, de uma amostra simulada, é feita a partir da Decomposição de Cholesky. Dado uma matriz de correlação entre os genes, um vetor contendo as esperanças dos genes que se pretende simular e um vetor com a variância da expressão desses genes, é possível obter n amostras simuladas para tais condições. Tais simulações são randômicas e partem de uma distribuição normal das variáveis.

A partir de uma distribuição multivariada Normal ( , ) onde é o vetor com as esperanças dos genes a serem simulados e é a matriz de covariância dessas variáveis, tem-se:

= + (5.14)

= / (5.15)

onde é a matriz final com os dados simulados, é matriz normal univariavel, é a matriz contendo autovetores normalizados da matriz de covariância , é a matriz diagonal contendo autovalores da matriz de covariância arranjados na mesma ordem como os autovetores nas colunas de .

Assim foram simulados 6x9 (54) conjunto de dados. Foram simuladas expressões gênicas para nove pontos equidistantes do volume celular sendo o primeiro volume 0,2pL e o último, 1pL. Para cada um desses 9 pontos do volume foram simulados 1000 amostras fictícias (n) para cada um dos 6 subgrupos (Figura 48). Para alguns cálculos posteriores nesse trabalho, utilizar-se-á números de amostras fictícias (n) distintos. Por isso, como segurança, calculou-se 1000 amostras fictícias para cada conjunto de dados e armazenou-se os dados simulados.

Figura 48 – Exemplo de simulação de um gene (gene A) em dois subgrupos moleculares diferentes (Subtype X e Subtype Y). Neste exmplo, n = 9, ou seja, para cada um dos volumes apontados, simula-se 9 amostras para cada subtipo. No caso real, simula-se 1000 amostras(n=1000) para 6 subtipo, em cada volume apontado.

Como as matrizes de correlação entre os genes foram subdivididas em 10 submatrizes assim também foi dividido o processo de Decomposição de Cholesky para cada um dos 54 conjuntos de dados. Mas após o processo de simulação, esses dados simulados são justapostos formando então os 54 conjuntos de dados: 54 matrizes contendo 30000 linhas (30000 genes) e 1000 colunas (1000 amostras simuladas). Assim, tem-se amostras simuladas para todos os subtipos moleculares em todos os nove volumes equidistantes.

A Decomposição de Cholesky foi implementada no software R utilizando a função “chol” do pacote “base”. Porém, tal função calcula a fatoração de uma matriz quadrada simétrica positivamente definida. Tal função é aplicada a matriz de covariância dos genes. No entanto, a nossa matriz de covariância provém da matriz de correlação. Esta última foi obtida a partir dos dados reais das 91 amostras (Seção 5.3.2). Como essa matriz foi obtida de dados reais, nem sempre ela é positivamente definida. Assim se faz necessário truncar as matrizes de correlação pela função “cor.smooth” do pacote “psych” no software R.

5.3.4 Genes negligenciados na análise estatística tradicional (em Análises Supervisionadas)

Com as simulações de amostras fictícias, porem pautadas em propriedades reais, é possível analisar possíveis genes negligenciados nas análises estatísticas tradicionais utilizadas em biologia, quando se compara dois, ou mais, grupos distintos (Análise Supervisionada).

O efeito do volume na expressão gênica acrescenta variabilidade no sistema de tal forma que, na análise estatística tradicional, alguns genes podem estar negligenciados. Para se achar possíveis genes negligenciados nas análises estatísticas tradicionais utilizou-se a técnica da simulação (Seção 5.3.3) para cinco partes do espectro: célula muito pequenas, pequenas, médias, grande e muito grandes (volumes de 160, 260, 360, 460 e 560 fL. vol1, vol3, vol5, vol7 vol9, respectivamente) (Figura 48).

Para cada parte do domínio, foi simulada a mesma quantidade de amostras: 91 amostras, que é, exatamente, o número de amostras reais. São simuladas 16 amostras Hiperdiploid, 6 Philadelphia, 12 Philadelphia-Like, 7 E2A- Pbx1, 16 ETV-RUNX, 35 Others, dando o total 91 amostras simuladas.

Então, aplica-se o teste-t (fold-change e p-valor) do modo tradicional, sem considerar a questão do volume) entre dois subgrupos moleculares de cada vez (por exemplo, entre ETV e Pbx). Então, calcula-se o teste-t entre os mesmos subgrupos porem com as amostras simuladas para cada um dos cinco volumes (Figura 49).

Figura 49 – Exemplo de comparação entre duas analises de t-test: a convencional (tradicional) e a simulada para um determinado sub-domínio do volume. Neste exemplo, a análise convencional, há um ruído devido ao efeito do volume sobre a expressão que pode esconder um fold-change significativo. Nos sub-domínios extremos (muito pequenas e muito grandes), tal gene é importante na diferenciação dos subtipos. Porém o efeito do volume anula essa importância. No genoma, pode haver diversos genes com esse perfil entre os subtipos levantando a hipótese de que há diversos genes negligenciados na análise tradicional.

Depois, compara-se os dois testes (fold-changes) entre si, para todos os 30000 genes, num scatter-plot. No eixo-x temos os log2 dos fold-changes calculados da maneira tradicional. No eixo-y temos os log2 dos fold-changes calculados para um volume especifico (vol1, vol3, vol5, vol7 e vol9, por isso os cinco gráficos) (Figura 50).

Figura 50 – Exemplo de comparação entre os testes-t convencional (eixo-x) e o test-t para um volume específico (eixo-y), entre dois subgrupos distintos. No exemplo, compara-se o fold-change entre os métodos. Tais valores estão em log2.

Este procedimento é repetido para todas as comparações entres os seis subtipos moleculares, tomados dois a dois. Então há 15 comparações (agrupamentos).

Uma forma de medir o espalhamento dos genes em torno da diagonal da igualde é computar, para cada gene apontado abaixo da diagonal, o valor do fold- change tradicional dividido pelo fold-change do volume especifico. Para os pontos acima da diagonal, deve-se computar o valor do fold-change do volume especifico dividido pelo fold-change tradicional, ou seja, o inverso. Assim os valores sempre serão maiores do que 1. Tais valores são computados para os 30000 genes e então se obtém a média. Esse valor médio representa o quanto há de espalhamento, dos pontos, em relação a diagonal, num determinado volume. Importante notar que esses cálculos devem ser realizados com os valores dos fold-changes naturais (Figura 51), sem estar no log2. Isso para evitar divisões por zero ou números muito próximos de zero. Assim é possível determinar quais volumes possuem maior espalhamento em relação à diagonal.

Figura 51 - Exemplo de comparação entre os testes-t convencional (eixo-x) e o test-t para um volume específico (eixo-y), entre dois subgrupos distintos. No exemplo, compara-se o fold-change entre os métodos. Tais valores não estão em log2 e sim de maneira natural.

A partir das comparações anteriores é possível identificar quais genes estariam negligenciados, ao longo dos cinco volumes.

Para tal, utilizou-se a seguinte estratégia:

Imagina-se um gene cuja expressão entre dois subgrupos hipotéticos (Subtipo X e Subtipo Y) seja como ilustrado a seguir (Figura 52):

Figura 52 – A) Exemplo da expressão de um gene para dois subtipos moleculares diferentes.. B) Comparação das amostras quando não se considera o volume celular. Neste exemplo, o fold-change é nulo. C) Comparação das amostras para cada dominio do volume separadamente, usando amostras simuladas. Nota-se fold-changes significativos para celulas grande e pequenas porem de maneira inversa. Num extremo,um fold-change é maior que 1, no outro, está entre 0 e 1. Então é necessaria uma estratégia onde nos dois extremos, o valor da análise seja relevante e significativo.

Numericamente, o fold-change e o log2 do fold-change (Subtipo X / Subtipo Y) nos cinco volumes seria algo próximo de:

Ao passo que o log2 do fold-change calculado da maneira tradicional seria 0 (Figura 52 B).

Muito Peq. Pequena Media Grande Muito Gran.

Fold-change 0,25 0,5 1 2 4

Log2(Fold-

Então calcula-se o modulo do log2 do fold-change para este gene nos cinco volumes.

Os valores em modulo indicam o quanto esse gene é importante na diferenciação das amostras, não importando se a expressão do Subtipo X é maior que o Subtipo Y ou vice-versa.

Então calcula-se a média dos módulos para os cinco volumes.

O valor da média, 1,2 pode ser interpretado como o peso que este gene tem na diferenciação das amostras, de maneira geral, ou seja, para toda a dimensão do volume. Pelo método tradicional esse peso seria 0. Logo esse gene está sendo negligenciado na análise tradicional.

Esse procedimento exemplificado anteriormente é repetido para todos os 30000 genes para os 15 agrupamentos, tomados dois a dois, dos subtipos moleculares.

Então é possível plotar, para cada um dos 15 agrupamentos, o peso do gene na análise tradicional (eixo-x), e na análise onde o volume é considerado (eixo- y) (Figura 53).

Método tradicional

Log2(Fold-change) 0

Muito Peq. Pequena Média Grande Muito Gran.

Log2(Fold-

change) 2 1 0 1 2

Muito Peq. Pequena Média Grande Muito Gran. Média dos valores Log2(Fold-

Figura 53 – Scater-plot do peso dos genes na diferenciação das amostras. Plot comparando os fold- changes para dois subtipos moleculares. Eixo-x representa o peso do gene na análise tradicional, sem considerar o volume. Eixo-y representa o peso dos genes na metodologia em que se considera o efeito do volume. Valores acima da diagonal mostram genes que são relevantes na diferenciação das amostras porem são negligenciados na análise tradicional. Genes abaixo da diagonal possuem mais peso na analise tradicional indicando genes que estão super valorizados na análise tradicional. Tal Scater-plot é obtido para todas as 15 agrupamentos entre subgrupos (tomados dois à dois).

A partir de então é possível identificar quais genes estão mais afastados da diagonal de identidade. Estes genes seriam os mais negligenciados nas análises tradicionais na comparação de dois subgrupos.

Então para cada agrupamento de dois subgrupos, é obtida uma lista dos genes mais negligenciado e estes são enriquecidos com a ferramenta online ToppGene.

Dentre essas 15 listas, são encontrados os genes em comum à todas e então enriquece-os também.

5.3.5 Resultados dos genes negligenciados

A comparação entre o método estatístico tradicional e o método aplicado para um subdomínio específico, foi realizada de acordo com a Seção. 5.3.4. e os resultados se encontram nas Figura 54, Figura 55 e Figura 56. Foram comparações acontecem entre dois subgrupos por vez. Então há 15 combinações possíveis entre os 6 subgrupos. Assim, a Tabela 20 identifica essas comparações.

Tabela 20 – Identificação das comparaçoes entre ossubgrupos moleculares.

Comparação Subtipos considerados

1 ETV - Pbx

2 ETV - Other

4 ETV - Ph_like 5 ETV - Hiper 6 Pbx - Other 7 Pbx - Ph 8 Pbx - Ph_like 9 Pbx - Hiper 10 Other - Ph 11 Other - Ph_like 12 Other - Hiper 13 Ph - Ph_like 14 Ph - Hiper 15 Ph_like - Hiper

Figura 54 - Comparação entre os fold-changes calculados tradicionalmente e calculados para cada dominio do volume.

Figura 55 - Comparação entre os fold-changes calculados tradicionalmente e calculados para cada dominio do volume.

Figura 56 - Comparação entre os fold-changes calculados tradicionalmente e calculados para cada dominio do volume.

Nota-se que as amostras pequenas apresentam maior dispersão em relação a diagonal de igualdade. Isso é devido ao fato de que o efeito do volume é mais pronunciado nesse subdomínio do volume. Células muito grandes também

apresentam maior espalhamento. Isso revela que muitos genes apresentam o mesmo comportamento apresentado na Figura 6. Ou seja, os genes, nas extremidades do domínio do volume (muito pequenas ou muito grandes), são capazes de diferenciar as amostras. No entanto são negligenciados quando não se considera o efeito do volume (Figura 6 B). Amostras de volume médio possuem o menor espalhamento. Isso acontece, provavelmente, porque genes com mesmo comportamento da Figura 6 apresentam fold-changes similares entre a análise tradicional (Figura 6 B) e a análise no subdomínio de volume médio.

Para quantificar a dispersão das amostras nos diferentes subdomínios, calculou-se o índice de dispersão em relação a diagonal (Tabela 21) comprovando que os domínios extremos possuem maior dispersão e que o subdomínio médio possui menor dispersão.

Tabela 21 - Índice de espalhamento calculado para todas as 15 comparações, em todos os cinco domínios.

Índice de Espalhamento Comparação vol1 vol3 vol5 vol7 vol9

1 1,37 1,05 1,06 1,12 1,13 2 1,22 1,05 1,04 1,05 1,07 3 2,29 1,32 1,11 1,08 1,15 4 1,42 1,05 1,05 1,08 1,11 5 1,57 1,06 1,04 1,07 1,12 6 1,25 1,05 1,05 1,07 1,09 7 2,25 1,32 1,13 1,09 1,16 8 1,45 1,06 1,06 1,09 1,12 9 1,55 1,07 1,05 1,09 1,13 10 2,34 1,33 1,1 1,08 1,17 11 1,4 1,05 1,05 1,07 1,1 12 1,49 1,06 1,04 1,06 1,11 13 1,63 1,12 1,06 1,09 1,13 14 1,74 1,13 1,05 1,08 1,14 15 1,51 1,06 1,04 1,07 1,13 Média 1,63 1,12 1,06 1,08 1,12

Como descrito na Seção 5.3.4 foram calculados os pesos dos genes na diferenciação das amostras, considerando a análise tradicional e a que considera o efeito do volume (Figura 57).

Figura 57 – Comparação dos pesos dos genes calculados pelo método tradicional e pelo método onde se considera o efeito do volume.

Nota-se que há uma tendência de os genes estarem acima da diagonal de igualdade. Isso significa que há mais genes que estão subestimados na análise tradicional do que superestimados.

Então, identificou-se os genes que estão mais afastados da diagonal de igualdade para todos as 15 comparações. Depois agrupou-se os genes que

apareceram em comum em todas as 15 comparações (Tabela 22) e os enriqueceu (Tabela 23).

Tabela 22 – Genes que possuem pesos mais distantes da diagonal de igualdade e que são comuns a todas as 15 comparaçoes entre subgrupos.

1 SLC4A1 HBD SPON1 RNF157 TMOD1 CLEC4E DMTN HBM ANK1 FAM46C

Documentos relacionados