• Nenhum resultado encontrado

Normalização de dados de expressão gênica de leucemia linfóide aguda pelo volume celular

N/A
N/A
Protected

Academic year: 2021

Share "Normalização de dados de expressão gênica de leucemia linfóide aguda pelo volume celular"

Copied!
170
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS

INSTITUTO DE BIOLOGIA

VICTOR SANDE VASCONCELOS

Normalização de dados de expressão gênica de leucemia

linfóide aguda pelo volume celular

CAMPINAS 2019

(2)

Normalização de dados de expressão gênica de leucemia

linfóide aguda pelo volume celular

Dissertação apresentada ao Instituto de Biologia da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestre em Genética e Biologia Molecular, na Área de Bioinformática.

Orientador: JOSÉ ANDRÉS YUNES

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL DA DISSERTAÇÃO DEFENDIDA PELO ALUNO VICTOR SANDE VASCONCELOS, E ORIENTADA PELO PROF. DR. JOSÉ ANDRÉS YUNES.

CAMPINAS 2019

(3)
(4)

COMISSÃO EXAMINADORA

Prof. Dr. José Andrés Yunes (Presidente)

Prof. Dr. Marcelo Falsarella Carazzolle

Profa. Dra. Samara Flamini Kiihl

Os membros da Comissão Examinadora acima assinaram a Ata de Defesa, que se encontra no processo de vida acadêmica do aluno.

(5)

Dedico esta dissertação aos meus pais: Claudemir e Iara; ao meu irmão: Daniel;

(6)

um caminho tortuoso, a um mundo surpreendente e cheio de significado dentro da biologia molecular. Agradeço a todas as pessoas que de forma direta ou indireta contribuíram para realização deste trabalho.

Expresso minha sincera gratidão ao meu orientador Dr. José Andrés Yunes pela grande oportunidade e confiança concedida a mim. Agradeço por permitir e auxiliar no desenvolvimento desta pesquisa, pelas discussões e inspirações científicas.

Gostaria de agradecer aos membros da banca, Dra. Samara Kiihl e Dr. Marcelo Carazzolle, por participarem de minha defesa, pelas discussões e por contribuírem para a melhoria deste trabalho.

Agradeço ao Instituto de Biologia da UNICAMP e aos funcionários da pós-graduação pelo suporte acadêmico necessário durante a realização deste projeto.

Agradeço ao Centro Infantil Boldrini, ao Centro de Pesquisas Boldrini e ao Laboratório de Biologia Molecular por cederem o material, infraestrutura e apoio necessário nesta pesquisa. Em especial à Dra. Silvia Brandalise pelo apoio e incentivo. Agradeço aos mestres Gabriel Centoducatte e Natacha Azussa Migita por me auxiliarem diretamente com conhecimento e práticas de laboratório. Agradeço aos funcionários do Hospital Boldrini, Leonice Fraga da Silva, Daniela Lordelo Daniel, Cleide Matos Trindade, Joyce Rico Vido Marques, Sérgio Luís Rodrigues por me concederem acesso ao material de estudo de maneira prática e organizada.

Eu também sou grato à FAPESP pelo apoio financeiro e incentivo à pesquisa que se deu pelo processo 2017/02301-9 e também ao CNPq, processo 132977/2017-3.

Agradeço aos mestres, amigos e colegas de laboratório Pedro Zeni, Guilherme Navarro, Leonardo Pissinato, Diego Maldonado por todo aprendizado e discussões filosóficas, sempre de maneira descontraída e divertida. Também menciono meu amigo artista Atilla Ramos Leite por ser um parceiro inestimável nesta vida acadêmica.

(7)

alimentado minha vontade por estudar e sonhar. Sem estes, jamais teria encontrado forças para vencer os inúmeros obstáculos da vida nem haveria sentido em comemorar as vitórias.

(8)

“Temos apenas que seguir a trilha do herói... e lá onde pensávamos estar sós, estaremos na companhia do mundo todo.”

(9)

RESUMO

Análise de expressão gênica tem sido amplamente utilizada para se entender fenômenos biológicos e diferenciar subtipos de Leucemia Linfoide Aguda (LLA). Dados de expressão gênica geralmente são obtidos para uma mesma massa de RNA por amostra. Diferenças nos volumes celulares são desprezadas nas análises estatísticas tradicionais, induzindo a resultados que podem não ser fiel a realidade. Neste trabalho, mediram-se os volumes celulares e realizou-se uma diferente estratégia de normalização para investigar o comportamento individual dos genes ao longo do crescimento celular. Trabalhos anteriores mostraram que a expressão de um gene possui uma tendência linear com o crescimento celular, porém cada gene possui seu próprio padrão linear (Padovan-Merhar et al., 2015). Por causa disso, a normalização da expressão gênica baseada na massa de RNA e/ou na média da expressão global resulta num desvio volume-dependente no valor da expressão que não é consistente com a real expressão da célula. Assim, o objetivo deste projeto é propor uma metodologia para a normalização da expressão gênica de acordo com o volume celular, obtendo assim, uma correção volume-dependente dos valores de expressão. Para tal, este trabalho foi realizado a partir de microarranjos de DNA da Affymetrix para 91 casos de LLA (LLA provenientes de células B) para quais também se tem uma estimativa do volume celular pela análise das lâminas de sangue de medula. Análises estatísticas e cálculos foram realizados com a linguagem R. Alguns pacotes como “Affy”, “genefilter” e outros pacotes do Bioconductor foram usados para se obter a esperança e variabilidade, como função do volume celular para 32.321 genes. Além disso, Análise de Componente Principal foi usada em cada subdomínio da variável volume a fim de se obter a dinâmica do sistema multivariado. As amostras de LLA usadas nesse trabalho apresentaram um fold-change de 5,5 entre o maior e menor volume celular médio. Comparações entre as células maiores e menores, dentro de um mesmo subtipo molecular de LLA revelou cerca de 1000 genes que possuem fold-change maior que 1,5 e baixo desvio-padrão ao longo do domínio do volume. Genes com alto fold-change volume-dependente pertencem a diversas vias e funções, no entanto, as mais enriquecidas estão ligadas ao ciclo celular, replicação de DNA etc. Além disso, análise não-supervisionada de Componente Principal (PCA), ao longo do volume, revelou que importantes genes para diferenciação dos subtipos de LLA mudam sua expressão

(10)

em função do volume celular. Conclui-se que a expressão de um único gene em diferentes amostras de LLA mostram tendências volume-dependentes de tal maneira que a análise tradicional de expressão gênica diferencial, usando a normalização convencional, resulta em perda importante de informação.

(11)

ABSTRACT

Gene expression analysis has been widely used to understand biological phenomena and to discriminate Acute Lymphocytic Leukemia (ALL) subtypes. Gene expression data are usually obtained based on the same RNA mass per sample. Differences in cellular volume are disregarded in regular statistical analysis, leading to results that may not be consistent with reality. In this work, we measure cell size and performed a different normalization strategy to investigate how individual gene expression behaves along cellular volume increase. Previous work showed that gene expression has a linear trend when the cell volume increases but each gene has its own linear pattern (Padovan-Merhar et al., 2015). Because of that, gene expression normalization based on RNA mass and/or global expression average results in a volume-dependent deviation in the expression value that is not consistent with actual expression per cell. The aim of this study is to propose a method for gene expression normalization according to cell volume, obtaining, in this way, a volume-dependent correction in the expression values. The work was done using Affymetrix microarray data from 91 cases of ALL (91 precursor B-cell ALL), for which we also have an estimate of the cellular size by flow cytometry and bone marrow smears. Statistical analysis and calculations were done using the R software. Some packages as “Affy” and “genefilter” Packages (Bioconductor) were used to obtain the expression expectation and variability, as a cell volume function, for 32,321 genes. Principal Component Analysis has been used in every volume spectrum fragment. The ALL samples used in this work showed a 5.5 fold-change variation between the smallest and biggest average cell volume. Comparison of smaller versus bigger cells, within each molecular subgroup of ALL, revealed around 1,000 genes that have a fold-change greater than 1.5 and low standard deviation throughout the volume spectrum. Genes with higher volume-dependent fold-changes belong to diverse pathway and functions. However, cell cycle genes and histones appear frequently. Furthermore, unsupervised PCA analyses, over the volume spectrum, showed that important genes for the discrimination between ALL subtypes change its expression as a function of cell volume. The expression of a single gene in different ALL samples shows diverse volume-dependent trends. Differential gene expression analysis using current normalization strategies resulted in lost of important information.

(12)

Lista de Figuras

Figura 1 - Normalização e interpretação dos dados de expressão (Adaptado de

Love’n et al. ,2012). 35

Figura 2 – Correlação da expressão gênica (4 genes) com o volume celular em fibroblastos. A) Cada ponto representa o resultado para uma única célula. B) Expressão do GAPDH pelo volume de acordo com a fase do ciclo celular. (Adaptado de Padovan-Merhar et al., 2015). 36 Figura 3 – Concentração de transcritos de RNA, de alguns genes, em função do

volume em fibroblastos (Padovan-Merhar et al., 2015). 37 Figura 4 – A) Exemplo de expressão genica em função do volume celular para

dois genes hipotéticos. B) Mesma expressão, porém normalizada pela

média global da expressão. 37

Figura 5 - Proporção dos componentes volume-dependentes e independentes da expressão gênica. Isso indica que cada gene possui uma inclinação de reta e intersecção do eixo das ordenadas (Adaptado de

Padovan-Merhar et al., 2015). 38

Figura 6 – A) Exemplo de expressão de um gene especifico em dois tipos celulares diferentes. B) Quando não se considera o efeito do volume e apenas consideram-se as diferenças das médias de expressão amostrais (pontos). C) Subdivisão do domínio do volume mostrando que a diferença das médias pode ser significativa em certos subdomínios quando analisados separadamente. 39 Figura 7 – Representação de lâmina de sangue de arraste. O arraste se dá da

esquerda à direita. O quadrado representa a região a ser ampliada e

fotografada. 42

Figura 8 – Foto de uma lamina na região terminal do arraste. Células mais roxas

são majoritariamente linfócitos. 42

Figura 9 – Esferóide oblato. 43

Figura 10 – Seção transversal de um esferoide oblato. Modelo utilizado para transformar uma seção plana circular em um volume. 43 Figura 11 – Box plot dos volumes celulares médios para os diferentes

(13)

Figura 12- Fotografias de duas amostras de LLA. A) Amostra cujo volume celular médio dos linfócitos (células roxas) é diminuto. B) Amostra cujo volume celular médio dos linfócitos (células roxas) é aumentado. 45 Figura 13 – Exemplo da normalização pela bioinformática. Após a normalização,

amostras com médias e distribuições diferente (Sample A e Sample B nos extremos da figura) adquirem as mesmas propriedades, porém de

maneira similares (centro da figura). 46

Figura 14 – Comparação da expressão gênica real para dois genes hipotéticos (gene i (vermelho) e gene j (gene verde)). A) Expressão real. B) Expressão normalizada pelo RMA. C) Divisão das expressões do gene i pelos gene j, no sistema real e normalizado pelo RMA, mostrando que ambas são iguais. Barras verticais representam a distribuição de todos

os genes da amostra. 47

Figura 15 – Exemplo de expressão de um determinado gene, dividido pela média da expressão total, para cinco amostras que diferem no volume celular

médio. Cada ponto representa uma amostra. 48

Figura 16 – Variação da variancia da expressão gênica ao longo do volume. Linhas vermelhas fortes representam a Esperança da expressão em função do volume, ao passo que as fracas representam a variancia. Linha cinza representa a Esperança da expressão global (todos os genes) média em função do volume. A) Sistema real B) Sistema

normalizado pela expressão global média. 49

Figura 17 – Exemplo de curva, encontrada pela técnica de mínimos quadrados, que melhor se encaixa nos dados a partir de uma função matemática estabelecida. A) Expressão hipotética de um gene A em cinco amostras ao longo do volume, em um sistema real. B) Expressão global média, cinza, tendo como constantes e , no sistema real A. C) Expressão do gene A normalizada pela expressão média global. Note que é possível obter esse gráfico usando as expressões provindas do sistema real ou do sistema já normalizado pelo RMA. D) Encaixe da curva que possui menor somatório de resíduos obtendo assim m e b. E) Representação do mesmo sistema no mundo real. 51

(14)

Figura 18 - Expressão gênica de diversas amostras (pontos individuais). A) Há dois subtipos moleculares hipotéticos em questão, representados pelos pontos azuis e vermelhos. B) Parâmetros lineares (m e b) encontrados para ambos os subtipos (azul e vermelho) e parâmetros encontrados

para todas as amostras juntas (preto). 51

Figura 19 – Como exemplo real, parâmetros e curvas encontradas para 6 subtipos moleculares (curvas coloridas) mais parâmetros considerando todas as amostras (curva preta) para o gene ZCCHC3 (91 amostras). 52 Figura 20 – Expressão do gene GAPDH, em quantidade de transcritos de RNA,

em fribroblatos. Cores diferentes representam fases do ciclo celular diferentes mostrando que a tendencia linear da expressão acontece em qualquer fase do ciclo (Padovan-Merhar et al., 2015). 55 Figura 21 – Expressão do GAPDH em função do volume e sua regrssão linear

obtida de ferramenta Linha de Tendencia (Excel®). 56 Figura 22- Variância da expressão do gene GAPDH em função do volume e sua

regrssão linear obtida de ferramenta Linha de Tendencia (Excel®). 56 Figura 23 – Valores de GAPDH/média para 91 amostras. A linha vermelha é a

regressão dos dados, utilizando o modelo polinomial (Regressão

Polinomial Local) com um spam de 100. 57

Figura 24 – Resíduos dos valores de GAPDH/média a partir de sua regressão. 58 Figura 25 – Desvio padrao da expressão GAPDH/média, em função do volume

obtida pela regressão (linha vermelha). 58

Figura 26 – Resultados de para 91 volumes, volumes estes referente as 91 amostras. A linha representa a regressão linear dos 91 pontos. 60 Figura 27 – Tendencia linear dos oitos housekeeping genes em função do

volume (linhas pretas). A linnha vermenlha é a tendencia da média

global em função do volume. 61

Figura 28 – Obtenção das expressoes ajustadas a partir da multiplicação das amostras obtidas pelo RMA pelas constantes k. As constantes são determinadas de modo que os erros das expressão ajustada e a

expressão guia seja mínima. 62

Figura 29 – Exemplo de tres amostras ajustadas (pontos vermelhos) em relação a expressão guia (pontos pretos). Os pontos são a expressão dos oito

(15)

housekeeping genes para tres amostras: uma com volume pequeno,

outra médio e outra grande. 63

Figura 30 – Plot dos 91 k calculados para as respectivas amostras e a regressão

linear (linha preta). 64

Figura 31 – Expressão (em número de transcritos) obtida para 9 genes a partir

da metodologia descrita na Seção 5.2.8) 65

Figura 32 – Expressão hipotética de dois genes em função do volume. Nessa simulação, a tendecia linear dos genes é crescente assim como a variancia em cima dessa tendencia, para ambos os genes. 66 Figura 33 – Os resultado da esperança da expressao, provenientes da solução

dos sistema algebricos estão plotados ao fundo para diversos pontos do volume. A linha vermelha é a inclinação real do gene azul. Os resultados provenientes dos sistemas algebricos são extremamente

fieis à realidade. 67

Figura 34 – Os resultado para o desvio padrao ( ), provenientes da solução dos sistema algebricos estão plotados ao fundo para diversos pontos do volume. A linha vermelha é a inclinação real do do desvio padrao em função do volume do gene azul. Os resultados provenientes dos sistemas algebricos são bem ruins quando comparados à realidade. 67 Figura 35 – Exemplo de dois genes onde há um fold-change maior do que 1,5

entre células pequenas (160 fL) e grandes (560 fL). No entanto o gene A possui inclinação de curva positiva e o gene B, negativa. 69 Figura 36 – A) Esfera de raio R. B) Gene de membrana cuja expressão seja

proporcional a área devem ter concentração diminuida ao aumentar o volume (linha azul) ao passo que gene de citplasma ou núcleo devem ter cncentração aumentada com o aumento do volume(linha

vermellha). 81

Figura 37 – Exemplo onde a relação dedois genes (gene i /gene j ) (Figura A) se correlacio com a função = de maneira positiva quando esses resultados são escalados no raio (Figura B). 81 Figura 38 – Matrix de correlação gerada pela divisão de todos os genes de

citoplasma ( ), contidos no Grupo1, por todos os genes de

(16)

Figura 39 – Geração de vetor de correlações onde em cada elemento é registrado a correlação de uma soma de pares de genes com a função

= . 84

Figura 40 – Representação do vetor de correlações do somatório de pares de

genes. 84

Figura 41 - Geração de vetor de correlações onde em cada elemento é registrado a correlação de uma soma de pares de genes com a função = que contribuirão positivamente no somatorio do processo

anterior. 85

Figura 42 - Representação do vetor de correlações do somatório de pares de

genes filtrados. 86

Figura 43 – Rede de relações de genes de membrana (linha superior) com genes de citoplasma e/ou núcleo (linha inferior) obtidas pela correlação dos pares de genes com a função = . Cada linha indica uma relação dos dois genes envolviidos, ou seja, significa que há um par de genes, nos pares filtrados, composto por eles dois. Nota-se que alguns genes se correlacionam com varios outros. Esses nós são nós de interesse. Os elementos numerados estão identificados nas Tabela 12 e 15. Nota-se que alguns elementos iteragem com varios outros

elementos,formando nós. 87

Figura 44 – Comparaçao dos volumes estimados pela expressão, versus volumes reais, para 91 amostras. Para se estimar tais volumes utilizou-se a expressão de 70 genes cujo comportamento possui dependenca

do volume. 92

Figura 45 – ìndice de espalhamento em relação a diagona em função dos números de genes utilizados no processo de estimativa dos volumes

celulares pela expressao gênica. 93

Figura 46 – Exemplo de correlação entre genes utilizando como base as curvas encontradas para cada gene. A) Uma alta correlação positiva entre os genes. B) Uma alta correlação negativa. As correlações são obtidas a partir dos resíduos, de acordo com curvas da expressão gênica em

(17)

Figura 47 – Matriz de correlação dos 30000 genes. Eliminou-se dos calculos, os ultimos 2321 genes do array. O cálculo da matriz completa é inviável. Então, calcula-se apenas as submatrizes de 3000x3000 elementos cada, sob a diagonal da matriz principal. O resto dos elementos da

matriz principal não serão utilizados. 95

Figura 48 – Exemplo de simulação de um gene (gene A) em dois subgrupos moleculares diferentes (Subtype X e Subtype Y). Neste exmplo, n = 9, ou seja, para cada um dos volumes apontados, simula-se 9 amostras para cada subtipo. No caso real, simula-se 1000 amostras(n=1000)

para 6 subtipo, em cada volume apontado. 96

Figura 49 – Exemplo de comparação entre duas analises de t-test: a convencional (tradicional) e a simulada para um determinado sub-domínio do volume. Neste exemplo, a análise convencional, há um ruído devido ao efeito do volume sobre a expressão que pode esconder um fold-change significativo. Nos sub-domínios extremos (muito pequenas e muito grandes), tal gene é importante na diferenciação dos subtipos. Porém o efeito do volume anula essa importância. No genoma, pode haver diversos genes com esse perfil entre os subtipos levantando a hipótese de que há diversos genes negligenciados na

análise tradicional. 98

Figura 50 – Exemplo de comparação entre os testes-t convencional (eixo-x) e o test-t para um volume específico (eixo-y), entre dois subgrupos distintos. No exemplo, compara-se o fold-change entre os métodos.

Tais valores estão em log2. 99

Figura 51 - Exemplo de comparação entre os testes-t convencional (eixo-x) e o test-t para um volume específico (eixo-y), entre dois subgrupos distintos. No exemplo, compara-se o fold-change entre os métodos. Tais valores não estão em log2 e sim de maneira natural. 100 Figura 52 – A) Exemplo da expressão de um gene para dois subtipos

moleculares diferentes.. B) Comparação das amostras quando não se considera o volume celular. Neste exemplo, o fold-change é nulo. C) Comparação das amostras para cada dominio do volume separadamente, usando amostras simuladas. Nota-se fold-changes

(18)

significativos para celulas grande e pequenas porem de maneira inversa. Num extremo,um fold-change é maior que 1, no outro, está entre 0 e 1. Então é necessaria uma estratégia onde nos dois extremos, o valor da análise seja relevante e significativo. 100 Figura 53 – Scater-plot do peso dos genes na diferenciação das amostras. Plot

comparando os fold-changes para dois subtipos moleculares. Eixo-x representa o peso do gene na análise tradicional, sem considerar o volume. Eixo-y representa o peso dos genes na metodologia em que se considera o efeito do volume. Valores acima da diagonal mostram genes que são relevantes na diferenciação das amostras porem são negligenciados na análise tradicional. Genes abaixo da diagonal possuem mais peso na analise tradicional indicando genes que estão super valorizados na análise tradicional. Tal Scater-plot é obtido para todas as 15 agrupamentos entre subgrupos (tomados dois à dois). 102 Figura 54 - Comparação entre os fold-changes calculados tradicionalmente e

calculados para cada dominio do volume. 104

Figura 55 - Comparação entre os fold-changes calculados tradicionalmente e

calculados para cada dominio do volume. 105

Figura 56 - Comparação entre os fold-changes calculados tradicionalmente e

calculados para cada dominio do volume. 106

Figura 57 – Comparação dos pesos dos genes calculados pelo método tradicional e pelo método onde se considera o efeito do volume. 108 Figura 58 – Exemplo de Principal Componet Analysis aplicado a um sistema

multivariavel (duas variáveis) de seis amostras. A) Amostras no sistema natural. B) Amostras no sistema onde uma transformada ortogonal. Assim, O eixo PC1 guarda a maior variabilidade e o eixo PC2 guarda a segunda maior variabilidade e é ortogonal à PC1. 112 Figura 59 – Rotação das variáveis de modo a achar o eixo de maior variabilidade

(PC1). Importante notar que a variável PC1 é uma combinação linear

das variáveis var1 e var2. Assim como PC2. 112

Figura 60 – Exemplo de simulação de amostras a partir do volume de uma amostra real. A) Amostra real 1 junta com todas as simulações compõem um set de dados. Será computado um PCA com esse set de

(19)

dados numa etapa posterior. B) Dois sets de simulação, agora com a amostra real 2. E assim é repetido para todas as 91 amostras reais,

compondo assim, 91 sets. 114

Figura 61 – Sets para se realizar os PCAs. 115

Figura 62 – PCA para o set de dados 1 (amostra real 1). A) Plano PC1xPC2. Mostrando as amostras smuladas para cada subtipo mais a amostra real (ponto verde). B) Superfícies gaussianas de probabilidade calculada para os subgrupos dado sua distribuição no plano. Esses procedimentos são repetidos para os 91 PCA computados, um para

cada amostra real correspondente. 116

Figura 63 – A) Plano de corte na PCA1. B) Detalhe do plano de corte. A amostra real 1 tem maior probabilidade de pertencer ao subgrupo A do que ao subgrupo B. Além das probabilidades, são também registradas as distancias da amostra real (ponto verde) aos centros de gravidades. 117 Figura 64 – Exemplo de diferentes disposições dos subgrupos simulados em

PCA sequenciais. Cada PCA utiliza um set especifico para um domínio

no volume. 118

Figura 65 – Base de vetores ortonormais onde cada vetor representa a probabilidade de uma amostra real pertencer a seu subgrupo em

questão. 119

Figura 66 – Amostras reais representadas como vetores na base ortonormal. 120 Figura 67 – Amostras reais como vetores normalizados. 120 Figura 68 – Sistema simulado contendo 10 amostras do Subtipo A e 10 do

Subtipo B. O sistema é composto da expressão de dois genes, gene1 e gene2. O gene1 sofre efeito do volume. O gene2 possui expressão

quase nula e serve como controle. 121

Figura 69 – PCA do sistema simulado. O PCA tradicional não é capaz de

segregar os subgrupos. 122

Figura 70 – Resultado do PCA modificado aplicado no sistema simulado. Amostras vermelhas são do Subtipo A. Amostras azuis são do Subtipo

B. 122

(20)

Figura 72 – PCA modificado para as 91 amostras de LLA B. Nessa metodologia utilizaram-se as probabilidades gaussianas para o plot na calota. 124 Figura 73 – PCA modificado para as 91 amostras de LLA B.. Plot igual ao plot da

Figura 72 porém é plotado apenas os números de modo a facilitar a

visualização destes. 125

Figura 74 - PCA modificado para as 91 amostras de LLA B. Nessa metodologia utilizaram-se as distâncias das amostras reais aos centros de

gravidade para obter o plot na calota. 126

Figura 75 – As proprabilidade dos eixos ortogonais, do PCA Modificado, são referentes ao subgrupos ETV, Pbx e Hyper, nessa ordem. 126 Figura 76 – Posiçoes geográficas dos eixos de gravidade dos seis subgrupos

moleculares no plano PC1xPC2 para nove volumes distintos. (ETV,

Pbx, Other, Ph, Ph_like, Hyper). 127

Figura 77 – Distância, em unidades arbitrárias, entre os subgrupos ao longo do

volume. 128

Figura 78 – Exemplo de contribuição de três genes nos eixo principais da PCA

ao longo do volume (PC1 (A) e PC2 (B)). 129

Figura 79 – Contribuição dos gene nos eixos PC1 em função do volume. Cada linha representa um gene. A) As contribuições podem ser positivas ou negativas. B) Foi tirado o módulo das contribuições. Alguns genes estão em destaque para mostrar diferentes comportamentos das

contribuições ao longo do volume. 130

Figura 80 - Contribuição dos gene nos eixos PC2 em função do volume. Cada linha representa um gene. A) As contribuições podem ser positivas ou negativas. B) Foi tirado o módulo das contribuições. Alguns genes estão em destaque para mostrar diferentes comportamentos das

contribuições ao longo do volume. 131

Figura 81 – Exemplo do comportamentos de tres fatores (variáveis internas referentes à PC1) ao longo do volume. Tais fatores foram extraidos de um conjunto de 500 variaveis por meio da Análise de Fatores. 134 Figura 82 – Fatores (variáveis internas), em função do volume, extraídos dos

(21)

Figura 83 – Plot tridimensional da contribuição dos fatores nos genes. Cada eixo corresponde ao peso de um fator. A ponta da aresta vale 1, ou seja,

contribui 100% no valor de um gene. 135

Figura 84 – Fatores (variáveis internas), em função do volume, extraídos dos genes que mais contribuem no eixo PC2. Fator1, Fator2 e Fator3. 137 Figura 85 – Plot tridimensional da contribuição dos fatores nos genes. Cada eixo

corresponde ao peso de um fator. A ponta da aresta vale 1, ou seja,

contribui 100% no valor de um gene. 137

Figura 86 – Exemplo de regulação dos Módulos. As setas indicam o quanto um Módulo, num determinado volume, influi no resultado de outro Módulo (ou sobre si mesmo) no incremanto de volume seguinte. 140

Figura 87 – Regulação dos módulos de PC1. 141

Figura 88 – Regulação dos módulos de PC2. 141

Figura 89 – Distorção da malha de acordo com os “movimentos” dos subgrupos em PCA consecutivas, de volumes consecutivos. Pontos coloridos grandes representam os centros de gravidade dos subgrupos. A estrela representa o comportamento de um ponto de interesse no decorrer do

espectro do volume. 142

Figura 90 – Exemplo de normalização final de duas amostras (losangos). Os losangos representam amostras de volumes celulares diferentes. A proposta de normalização baseia-se em transportar essas amostras para uma dinâmica de sistema comum, no exemplo, para o PCA de células “médias grandes”. Assim, a comparação da expressão ocorre

no mesmo domínio do volume. 143

Figura 91 - Exemplo de “movimento” dos centros de gravidades de três subgrupos moleculares sobre o plano PC1XPC2 ao longo do volume

(vol1, vol5 e vol9). 144

Figura 92 – Configuração dos elementos presentes na configuração da malha de molas. Cada elemento é composto de tresou mais nós. 145 Figura 93 – Malha contendo 40x40 nós. A malha azul representa a malha em

seu estado natural. Então seleciona-se tres nós (pontos azuis) como sendo os representantes das posiçoes dos subgrupos. Após isso, faz com que esses nós escolhidos assumam as posiçoes dos subgrupos.

(22)

Então a malha ajusta-se para a condição de equilibrio (malha

vermelha). 146

Figura 94 – Exemplo, numa malha simples unidirecional, do processo de iteraçoes e posiçoes dos nós após cada iteração. Os nós extremos são escolhidos para serem os nós de restrição. Então, esses são colocados em suas posiçoes pré-determinadas. Então, deiteração em iteração, os nós atingem sua posição de equilibrio. Tal modelagem mimetiza uma malha de molas, ou seja, como se os nós fossem conectados, uns com

outros, por meio de molas. 147

Figura 95 – A) Malha na condição inicial (azul). Então os nós A e B são colocados em sua posição pré-determinada (pontos vermelhos). A posição natural do nóA é a mesma que sua posição pre-determinada. Então ocorre a primeiira e segunda iteração. Note que já na primeira iteração a malha se inclina. Esse fato será explicado adiante. No entanto, a malha, em sua segunda iteração, não está em sua posição de equilíbrio. B) Após 5000 iterações, a malha atinge seu equilíbrio

(vermelha). 147

Figura 96 – A) Posição dos subgrupos moleculares nos planos PC1xPC2 (pontos azuis) formando o sstema. O ponto vermelho representa o polo do sistema sobre o qual passam os eixos de inercia. Reta verde é o eixo de inercia principal do sistema. Reta vermelha é o eixo de inercia secundário. B) Malha com orientação baseada na orientação dos eixos

de inércia. 148

Figura 97 – Exemplo dos eixos principais de inérca (1 e 2) num sistema e os respectivos angulos formados com o eixo-x (angulos ). 149 Figura 98 – Teste de malha para quatro eixos de centro de gravidade

expandindo-a. 150

Figura 99 – Teste de malha para quatro eixos de centro de gravidade

expandindo e rotacionando-a. 150

Figura 100 – Malha de 40x40 nós, sobre o plano PC1xPC2, utilizada na análise dos deslocamentos dos centros de gravidade dos subgrupos ETV, Pbx

(23)

Figura 101 – Malhas ajustadas aos pontos referentes aos centros de gravidades

de tres subgrupos moleculares. 153

Figura 102 – Exemplo dos deslocamento de 9 pontos, encontrados volume1, ao longo dos outros volumes. Cada linha representa o movento de um determinado ponto ao longo dos volumes. Os números indicam os volumes. Ou seja, é possivel determinar onde estariam esses pontos em outros volumes, alem do volume de origem (volume1). 154 Figura 103 – Deslocamento de tres amostras distintas, no plano PC1xPC2, ao

longo dos 9 volumes. A amostra original vermelha se encontra no volume 3. Mas pela rastreabilidade dos nós é possivel determinar onde essa amostra estaria localizada nos outros volumes. A original original azul se encontra no volume1 e da mesma forma, se rastreia sua posição em outros volumes. Assim é possivel compara essas duas amostras num mesmo volume, por exemplo no volume2, mesmo nenhuma dessas amostras, originalmente, estarem nesse volume. 155 Figura 104 – Posçoes das amostras (pontos) no plano PC1xPC2 nos volumes 1,

3 e 5. Cada cor representaria um subtipo diferente. Tendo todas as posiçoes, de todas as amostra, rastreadas para todos os volumes, é possivel plotar todas as amostras no volume 1, ou em quanquer outro volume, mesmo que nem todas as amostras sejam originais do

volume1. 155

Figura 105 – Teste do deslocamento de pontos próxmos aos deslocamentos dos centros de gravidade dos 3 subgrupos no plano PC1xPC2. As linhas finas remetem ao deslocamento de pontos vizinhos aos centros de

gravidade. 156

Figura 106 – Deslocamento das 17 amostras sobre o plano PC1xPC2 ao longo de todo domínio. As cores remetem aos diferentes subgrupos moleculares a quais pertencem : ETV, Pbx, Ph. 157 Figura 107 – Deslocamento de 12 amostras sobre o plano PC1xPC2 ao longo de

todo domínio. As cores remetem aos diferentes subgrupos moleculares a quais pertencem. Representadas tres amostras por vez meramente

(24)

Figura 108 - Posçoes das amostras (pontos) no plano PC1xPC2 nos volumes 1 à 9. Cada cor representaria um subtipo diferente. Tendo todas as posiçoes, de todas as amostra, rastreadas para todos os volumes, é possivel plotar todas as amostras no volume 1, ou em quanquer outro volume, mesmo que nem todas as amostras sejam originais do volume1. . Em determinados volumes, parecem haver menos do que 17 amostras. Isso acontece pois na verdade, duas amostras, ou mais, estão ocupando o mesmo nó, ou seja, a mesma posiçao 158 Figura 110 – Comparação dos pesos dos genes calculados do modo tradicional

em relação ao peso calculádo considerando o efeito do volume. Comparação feita para as tres combinaçoes possíveis entre os tres

(25)

Lista de Tabelas

Tabela 1 - Valores em fL dos volumes celulares médios das 91 amostras

ordenadas de maneira crescente. 44

Tabela 2 Exemplo de critérios para agrupar genes a serem enriquecidos. Cada subgrupo molecular possui dez grupos, ou seja, dez listas de genes. Tambem há dez grupos para todas amostra simultaneas (Geral). 70 Tabela 3 – Enriquecimento (Biological Process) dos genes filtrados de acordo

com os criterios da Tabela 2 para todas as amostras (Geral). 70 Tabela 4 - Enriquecimento (Celullar Component) dos genes filtrados de acordo

com os criterios da Tabela 2 para todas as amostras (Geral). 72 Tabela 5 – Enriquecimento (Biological Process) dos genes filtrados de acordo

com os critérios da Tabela 2 para as amostras ETV. 72 Tabela 6 - Enriquecimento (Biological Process) dos genes filtrados de acordo

com os criterios da Tabela 2 para as amostras Pbx. 74 Tabela 7 - Enriquecimento (Biological Process) dos genes filtrados de acordo

com os criterios da Tabela 2 para as amostras Others. 75 Tabela 8 - Enriquecimento (Biological Process) dos genes filtrados de acordo

com os criterios da Tabela 2 para as amostras Ph. 76 Tabela 9 - Enriquecimento (Biological Process) dos genes filtrados de acordo

com os criterios da Tabela 3 para as amostras Ph_like. 78 Tabela 10 - Enriquecimento (Biological Process) dos genes filtrados de acordo

com os criterios da Tabela 3 para as amostras Hiper. 79 Tabela 11 – Critérios de agrupamentos de genes a serem enriquecidos para se

estudar a relação de genes de citoplasma e/ou núcleo com genes de

membrana no crescimento celular. 82

Tabela 12 - Genes selecionados de membrana. 87

Tabela 13 Genes selecionados de citoplasma. 87

Tabela 14 –Enriquecimento dos gene de citoplasma que se correlacionaram com

4 ou mais genes de membrana. 88

Tabela 15 – Genes de membrana e seus genes alvos no citoplasma. 89 Tabela 16 - Enriquecimento dos alvos de citoplasma dos principais nós de

membrana. 89

(26)

Tabela 18 - Enriquecimento dos alvos de membrana dos principais nós de

citoplasma. 90

Tabela 19 – Símbolos dos 70 genes mais propícios para se estimar o volume

celular médio de uma amostra de LLA. 93

Tabela 20 – Identificação das comparaçoes entre ossubgrupos moleculares. 102 Tabela 21 - Índice de espalhamento calculado para todas as 15 comparações,

em todos os cinco domínios. 107

Tabela 22 – Genes que possuem pesos mais distantes da diagonal de igualdade e que são comuns a todas as 15 comparaçoes entre subgrupos. 109 Tabela 23 – Enriquecimento dos genes que possuem pesos mais distantes da

diagonal de igualdade e que são comuns a todas as 15 comparaçoes

entre subgrupos. 109

Tabela 24 - Genes que possuem pesos mais distantes da diagonal de igualdade e que são comuns as comparaçoes entre os subgrupos ETV, Pbx e Ph. 110 Tabela 25 - Enriquecimento dos genes que possuem pesos mais distantes da

diagonal de igualdade e que são comuns as comparaçoes entre os

subgrupos ETV, Pbx e Ph. 110

Tabela 26 - Genes que possuem tendência positiva e negativa na contribuição

no eixo PC1. 130

Tabela 27 - Genes que possuem tendência positiva e negativa na contribuição,

em módulo, no eixo PC1. 131

Tabela 28 - Genes que possuem tendência positiva e negativa na contribuição

no eixo PC2. 132

Tabela 29 - Genes que possuem tendência positiva e negativa na contribuição,

em módulo, no eixo PC2. 132

Tabela 30 – Exemplo dos pesos dos fatores na contribuição das variaveis observáveis (contribuição do genes em PC1). 134 Tabela 31 – Enriquecimento dos genes que se correlacionam com o Fator1 do

PC1. 136

Tabela 32 – Enriquecimento dos genes que se correlacionam com o Fator2 do

PC1. 136

Tabela 33- Enriquecimento dos genes que se correlacionam com o Fator3 do

(27)

Tabela 34 – Enriquecimento dos genes que se correlacionam com o Fator1 do

PC2. 137

Tabela 35 – Enriquecimento dos genes que se correlacionam com o Fator2 do

PC2. 138

Tabela 36 - Enriquecimento dos genes que se correlacionam com o Fator3 do

PC2. 138

Tabela 37 – Módulos obtidos pela Análise de Fatores. 138 Tabela 38 – Enriquecimento dos genes acima da diagonal de identidade e

abaixo dela. A lista é composta dos genes comuns encontrados nas três combinações: ETV-Pbx, ETV-Ph e Pbx-Ph. 159

(28)

SUMÁRIO

1 Introdução 31

1.1 Descrição do problema 34

1.2 Comportamento linear da expressão gênica 35

2 Hipótese 40

3 Objetivos 40

3.1 Objetivos específicos 40

4 Material 41

5 Métodos, Resultados e Discussão por partes 41

5.1 Parte I – Volumes celulares 41

5.1.1 Análise do tamanho e volume celular 41

5.1.2 Resultados dos volumes calculados 43

5.2 Parte II – Genes que sofrem influência do volume 45

5.2.1 Microarranjos de expressão gênica 45

5.2.2 Ferramenta Robust Multi-array Average (RMA) 45 5.2.3 Modelagem linear da expressão gênica em função do volume 49 5.2.4 Determinação das constantes lineares por Mínimos Quadrados 50

5.2.5 Determinação dos coeficiente e 53

5.2.6 Propriedades da álgebra randômica 53

5.2.7 Resolvendo o sistema de variáveis randômicas 59 5.2.8 Determinação de m e b de 8 housekeeping genes pela álgebra

randômica. 60

5.2.9 Teste para a metodologia de obtenção de e 65 5.2.10Filtro para se encontrar genes de interesse 68

5.2.11Enriquecimento dos genes selecionados 69

5.2.12Resultado da filtragem e enriquecimento de genes 70 5.2.13Relação de genes de citoplasma e membrana 80

(29)

5.2.14Resultados das relações dos genes de citoplasma e membrana 86 5.2.15Determinação dos volumes pela expressão 91 5.3 Parte III – Genes negligenciados na Análise Supervisionada 93 5.3.1 Divisão do domínio do volume e simulação computacional 94

5.3.2 Correlação entre os genes 94

5.3.3 Simulação pela Decomposição de Cholesky 95 5.3.4 Genes negligenciados na análise estatística tradicional (em

Análises Supervisionadas) 97

5.3.5 Resultados dos genes negligenciados 102

5.4 Parte IV - Efeito do volume na Análise Não-Supervisionada 111

5.4.1 Principal Component Analysis (PCA) 111

5.4.2 Simulações para PCAs 112

5.4.3 PCA modificado (Calota) 117

5.4.4 Teste da metodologia da Calota 121

5.4.5 Resultados do PCA tradicional versus Calota 122

5.4.6 Distância entre os subgrupos nas PCAs 127

5.4.7 Contribuição dos genes na PCA e Espaço de Estados 128 5.4.8 Resultados das contribuições dos genes nos eixos principais 129

5.4.9 Analise de Fatores (Factor Analysis) 132

5.4.10Resultados da Análise de Fatores 135

5.4.11Modelando os fatores por Espaço de Estados 139

5.4.12Resultados do Espaço de Estados 140

5.5 Parte V - Normalizador final 141

5.5.1 Dinâmica do plano PC1xPC2 e malha de molas 141 5.5.2 Todas amostras no mesmo subdomínio do volume

(Normalização final) 142

(30)

5.5.4 Calculando os Eixos principais de inercia 148

5.5.5 Teste da Malha 150

5.5.6 Deslocamento das amostras ao longo de todo o volume 151 5.5.7 Teste do deslocamento das amostras no plano PC1xPC2 156

5.5.8 Resultados da normalização final 156

6 Conclusão 161

7 Referências 163

8 Anexo 169

8.1 Termo de Bioética 169

(31)

1 Introdução

A Leucemia Linfóide Aguda (LLA) é o câncer mais comum na infância, correspondendo a cerca de um quarto de todos os casos de câncer e a 80% de todas as leucemias que ocorrem até a idade de 15 anos. A ocorrência de diversos tipos de alterações genéticas como translocações, inversões, deleções e duplicações de cromossomos ou partes dos cromossomos, fazem com que a LLA seja uma doença bastante heterogênea. Este fato, somado às diferenças inter-individuais dos pacientes, tais como diferenças na tolerância e metabolização das drogas, tornaria teoricamente necessário a prescrição individualizada do tratamento. Na prática, porém, os pacientes são classificados em dois grandes grupos - grupo de Alto Risco e grupo de Risco Básico – sendo a intensidade do regime terapêutico adaptada para cada um destes grupos.

Aproximadamente 20% a 30% das crianças que atingem a remissão clínica após a fase inicial de quimioterapia (primeiros 30 dias de tratamento) sofrem recaída da doença. Se a recaída for precoce (até os 36 meses após diagnóstico) as chances de cura são de apenas 10%. Muito embora a ocorrência de recaídas seja mais precoce nos pacientes de alto risco em comparação com os de risco básico, o número de pacientes que recaem é semelhante em ambos os grupos. Este fato sugere que os critérios atualmente adotados na classificação dos pacientes são insuficientes para avaliar a resposta clínica dos mesmos ao tratamento. Os pacientes que atualmente não são curados poderiam ter melhores chances se fossem identificados ainda no início do tratamento e submetidos a regimes terapêuticos mais agressivos e/ou alternativos.

As células de LLA da recaída fazem parte da mesma população de células encontrada já ao diagnóstico (Zuna et al., 2004), porém apresentam maior resistência aos quimioterápicos (Pieters et al., 1990) e por isso, as crianças que recaem da doença dificilmente são curadas (sobrevida global estimada em 40%). Entender os mecanismos de resistência à quimioterapia parece ser fundamental para o aperfeiçoamento do tratamento da LLA da recaída assim como de pacientes novos.

Uma variedade de mecanismos celulares pode originar a resistência a drogas das células cancerosas e da leucemia, entre eles o aumento na expressão de transportadores celulares, alterações nos mecanismos de desintoxicação,

(32)

aumento no processo de reparo do DNA, redução na produção dos metabólitos alvos da droga e alterações na regulação do ciclo celular e em vias apoptóticas (Borst, 1991; Kruh, 2003). O mecanismo mais bem estudado de resistência a drogas no câncer é o efluxo dos compostos citotóxicos através de transportadores ABC (ABCB1, ABCB4, ABCC1, ABCG2, e MVP). Transportadores ABC respondem pela aquisição de resistência a drogas em linhagens de LLA cultivadas por longos períodos com doses baixas de quimioterápicos, mas não no caso das células de LLA resistentes encontradas nos pacientes em recaída (den Boer et al., 1998a; Pieters & den Boer, 2003; van den Heuvel-Eibrink et al., 2000). Além disso, alguns dos quimioterápicos mais importantes no tratamento da LLA, como a prednisona, dexametasona e asparaginase não são substratos dos transportadores ABC.

Métodos modernos de análise da expressão gênica global abriram novas perspectivas para a identificação de genes e processos biológicos implicados na resistência a drogas. A prova de conceito foi obtida pela análise de diferentes linhagens de células cancerosas mantidas em cultura (Staunton et al., 2001; Nakatsu et al., 2005) ou xenotransplantadas em camundongos (Zembutsu et al., 2002).

O perfil de expressão gênica da LLA ao diagnóstico é capaz de predizer a ocorrência ou não da Doença Residual Mínima, sugerindo, portanto, que a resistência in vivo ao tratamento está de fato associada à expressão gênica das células leucêmicas. De acordo com tais estudos, células quiescentes e resistentes à apoptose (portanto, caracterizadas pela menor expressão de genes de proliferação celular e de genes pro-apoptóticos) são menos afetadas pela quimioterapia, e concorrem para aumentar às chances de recaída (Cario et al., 2005; Flotho et al., 2007). Por outro lado, as células de LLA da recaída apresentam um perfil de expressão gênica com maior abundância dos genes de proliferação celular do que as células do diagnóstico (Beesley et al., 2005; Bhojwani et al., 2006; Kirschner-Schwabe et al., 2006). Como é possível que as células da recaída sejam altamente proliferativas e mesmo assim mais resistentes à quimioterapia? Em parte, parece que tais células têm também maior expressão de genes de reparo do DNA (PTTG1, RAD51 e POLE2) e de anti-apoptose (BIRC5, AATF, API5 e AVEN), que compensariam os efeitos nocivos da quimioterapia (Bhojwani et al., 2006). Enfim, esses resultados não são de fácil interpretação; interpretação que é dificultada ainda

(33)

pela heterogeneidade típica da LLA e pelo fato dos pacientes serem tratados com múltiplas drogas. Uma forma de evitar essas dificuldades tem sido o estudo de linhagens celulares de LLA sob ação de quimioterápicos isolados. O quimioterápico mais largamente estudado desta forma tem sido o glucocorticoide (Obexer et al., 2001; Tonko et al., 2001; Yoshida et al., 2002; Planey et al., 2003).

Mais recentemente, Holleman et al. (2004) determinaram o perfil de expressão gênica de células primárias de LLA de linhagem B de 173 crianças. As amostras foram categorizadas de acordo com a sensibilidade ou resistência in vitro contra cada um de 4 dos principais quimioterápicos utilizados no tratamento: prednisolona, asparaginase, vincristina e daunorubicina; e genes de sensibilidade/resistência associados a cada uma dessas drogas foram identificados. Surpreendentemente, do total de 124 genes identificados, 121 nunca haviam sido associados à resistência a drogas, o que mostra a falta de conhecimento em relação aos mecanismos de resistência à quimioterapia. Importante notar que o perfil de expressão desses 124 genes apresentou-se significativamente associado com a evolução clínica de um grupo independente de pacientes.

Trabalhos posteriores foram conduzidos para analisar o perfil de expressão gênica da LLA relacionado à resistência in vitro contra Asparaginase (Fine et al., 2006) e prednisolona (Tissing et al., 2007), à resistência cruzada in vitro contra a prednisolona, asparaginase, vincristina e daunorubicina (Lugthart et al., 2005), e à resistência in vivo contra glucocorticoides (Schmidt et al., 2006; Wei et al., 2006; Rhein et al., 2007; Cario et al., 2008), mercaptopurina (Zaza et al., 2005), e metotrexato (Sorich et al., 2008). Praticamente todos os dados de expressão gênica associados à resistência a drogas mostraram associação com a resposta clínica dos pacientes e permitiram diferenciar pacientes bons respondedores daquelas com prognóstico desfavorável. Além disso, a analise ontológica dos genes diferencialmente expressos tem possibilitado uma melhor compreensão dos mecanismos de resistência a drogas, e até mesmo sugerir novas formas de tratamento. Um caso em particular merece ser citado. Usando o ‘Connectivity Map” (Lamb et al., 2006), descobriu-se uma correlação positiva entre o perfil de expressão gênica resultante da inibição do mTOR (com a droga Rapamicina) e o perfil de sensibilidade a glucocorticoides na LLA. De posse desta informação, foi possível

(34)

demonstrar que a inibição da via PI3K/AKT/mTOR pela Rapamicina é capaz de sensibilizar células de LLA resistentes aos glucocorticoides (Wei et al., 2006).

1.1 Descrição do problema

Apesar destes avanços, as listas de genes associados à resistência ao tratamento entre os diferentes estudos raramente concordam entre si. Em parte, esta dificuldade se deve ao uso de diferentes plataformas para análise da expressão gênica. Por outro lado, o método convencional de análise de expressão gênica tem introduzido um artefato de técnica na medida em que se parte de uma mesma quantidade de RNA por amostra e não de um mesmo número de células por amostra (Schulze e Downward, 2001; Quackenbush, 2002; Love’n et al.,2012).

Os métodos convencionais de análise dos dados de expressão gênica assumem que os sinais para as diferentes amostras devem ser normalizados de modo a ter o mesmo valor médio ou que as distribuições de intensidades de sinal para cada experimento dentro de um conjunto devem ser iguais (Li e Wong, 2001; Huber et al., 2002; Bolstad et al., 2003; Irizarry et al., 2003; Wu et al., 2004; Reimers, 2010). Este procedimento é importante, pois diminui ou elimina certos tipos de erros de caráter experimental como, por exemplo, o mal preparo das amostras a serem processadas (Love’n et al. ,2012).

No entanto, essas abordagens assumem a premissa de que a quantidade total de RNA em cada célula é similar em diferentes tipos celulares ou perturbações experimentais. Sendo assim, se as diferentes amostras celulares possuem quantidades equivalentes de RNA por célula então os dados da expressão normalizada resultaram numa representação acurada dos níveis relativos da expressão de cada gene. No entanto, mutações genéticas, como por exemplo, amplificação de MYC, muito comuns no câncer, resulta em aumento do metabolismo celular, acompanhado de aumento de tamanho celular e de quantidade de RNA (2 a 3x mais) por célula (Lin et al., 2012; Nie et al., 2012). Nestes casos, a análise convencional de expressão gênica pode levar a resultados não fieis à realidade, pois a premissa desconsidera o fato de diferentes amostras terem volume celular diferente, logo, quantidade de RNA por célula também variável. A Figura 1 exemplifica a interpretação da expressão gênica para dois casos distintos quando se aplica o método de normalização por quantidade igual de RNA. No primeiro caso há similaridade na quantidade de RNA por célula nas duas amostras (caso comumente

(35)

aceito como premissa). No segundo caso exemplificam-se células que sofreram amplificação da transcrição global (por exemplo, por MYC).

Figura 1 - Normalização e interpretação dos dados de expressão (Adaptado de Love’n et al. ,2012). (A) Esquema do padrão de alteração do nível de expressão de genes quando os níveis de RNA total em duas células, de amostras diferentes, são similares. O quadrado representa uma perturbação como, por exemplo, o aumento da expressão de um gene regulatório ou um tratamento celular. Genes são representados por círculos e as setas vermelhas apontam para genes afetados (aumento da expressão) pela perturbação. (B) Representação da normalização do microarranjo quando o nível de RNA total por célula não varia nas duas condições testadas. O nível relativo para nove genes (A-I) são indicados ao longo do eixo Y para a condição 1 (preto) e para a condição 2 (laranja). Os gráficos representam, na ordem: a relação real entre níveis de RNA por célula para duas condições; o efeito da normalização pela média; fold-changes calculados baseados na normalização pela média; e a transcrição percebida quando aplicado esse método.

(C) Esquema do padrão de alteração do nível de expressão de genes quando o nível de RNA total em duas células, de amostras diferentes, é significativamente diferente como nos casos de amplificação de transcrição quando a maioria dos genes são super-expressos.

(D) Representação da normalização do microarranjo quando o nível de RNA total por célula é aumentado numa das condições comparada com a outra. (Love’n et al.,2012).

A normalização do sinal proveniente de células com mais RNA pode resultar na errada percepção de que alguns genes possuem elevada expressão e outros, expressão reduzida. Nota-se, como no caso da Figura 1 D, que a “Resposta percebida” não representa a real expressão gênica (Figura 1 C).

1.2 Comportamento linear da expressão gênica

Além disso, para a maioria dos genes, a quantidade de mRNA (RNA mensageiro) e volume numa única célula correlacionam fortemente de maneira positiva e linear. Essa proporcionalidade não é apenas confinada a genes de alta expressão, mas também para os de baixa expressão (Padovan-Merhar et al., 2015). Esse comportamento também se observa em mRNA de vida curta (Tem et al., 2012) e também em qualquer progressão do ciclo celular (Padovan-Merhar et al., 2015) (Figura 2).

(36)

Figura 2 – Correlação da expressão gênica (4 genes) com o volume celular em fibroblastos. A) Cada ponto representa o resultado para uma única célula. B) Expressão do GAPDH pelo volume de acordo com a fase do ciclo celular. (Adaptado de Padovan-Merhar et al., 2015).

A regressão linear desses genes se dá pela forma: = + + ( e são constante e representa o ruído), onde a intercessão desta função no eixo das ordenadas é diferente de zero para a grande maioria dos genes. Isso indica que há um componente volume-dependente e outro volume-involume-dependente nesta correlação (Padovan-Merhar et al., 2015) (Figura 2 B).

De maneira interessante, pelo fato de a linha de tendência da expressão da maioria dos genes cruzarem o eixo das ordenadas acima do zero, as células tendem a ter maiores concentração de RNA quando são menores em volume (Figura 3).

(37)

Figura 3 – Concentração de transcritos de RNA, de alguns genes, em função do volume em fibroblastos (Padovan-Merhar et al., 2015).

Embora a expressão gênica cresça linearmente em função do volume celular, cada gene apresenta seu próprio comportamento linear (Figura 4 e Figura 5).

Figura 4 – A) Exemplo de expressão genica em função do volume celular para dois genes hipotéticos. B) Mesma expressão, porém normalizada pela média global da expressão.

(38)

Figura 5 - Proporção dos componentes volume-dependentes e independentes da expressão gênica. Isso indica que cada gene possui uma inclinação de reta e intersecção do eixo das ordenadas (Adaptado de Padovan-Merhar et al., 2015).

Importante notar que a totalidade dos transcritos de RNA de uma célula também cresce de maneira linear e a tendência também cruza o eixo das ordenadas num lugar diferente do zero. Desta maneira, a média da transcrição global (soma total dos transcritos dividido pelo número de genes existentes) também se dá pela forma:

é = + + (1.1)

Onde m e b são constantes e é um erro adicionado.

De maneira interessante, nota-se que a concentração dos genes em relação ao total de transcritos, ao longo do volume, varia. Por exemplo, quando uma célula cresce, a concentração de transcritos de um gene pode aumentar ou diminuir. Logo o fenômeno se mostra como algo dinâmico. No exemplo da Figura 4, para uma célula de volume pequeno, a concentração do gene B é maior que o gene A. No entanto, a mesma célula com um volume maior, apresentaria uma concentração do gene A maior que o gene B. Embora, os dados estejam nessa forma de concentração, continuaremos a tratar com a nomenclatura “expressão genica” neste trabalho.

Desta maneira há duas variabilidades da expressão gênica. Uma é o próprio ruído biológico da expressão e a outra variabilidade é dependente exclusivamente do efeito do volume.

(39)

Uma das hipóteses deste trabalho é que o mesmo fenômeno possa ocorrer para um mesmo gene, porém em tipos celulares diferentes (Figura 6). Dessa maneira, há um ruído volume-dependente que é adicionado à variação total da expressão gênica.

Figura 6 – A) Exemplo de expressão de um gene especifico em dois tipos celulares diferentes. B) Quando não se considera o efeito do volume e apenas consideram-se as diferenças das médias de expressão amostrais (pontos). C) Subdivisão do domínio do volume mostrando que a diferença das médias pode ser significativa em certos subdomínios quando analisados separadamente.

No exemplo da Figura 6, quando a dimensão volume não é considerada (Figura 6 B), estando assim, o ruído volume-dependente adicionado à variabilidade total, não é notado um fold-change significativo na expressão do gene A entre o Subtipo X e o Subtipo Y.

Pensando desta maneira, quando o ruído volume-dependente não é separado da análise de dois ou mais grupos celulares, alguma informação importante pode ser perdida (Figura 6).

Células leucêmicas possuem variação significativa de volume celular médio entre amostras. Algumas amostras possuem um volume médio cinco vezes maiores do que as amostras de menor volume (Ver Resultados).

Desta forma, a variabilidade da expressão gênica volume-dependente está presente na análise da expressão gênica leucêmica e pode levar à perda de informação: alguns genes importantes, que possuem expressão diferenciada entre

(40)

dois ou mais subgrupos leucêmicos, podem estar negligenciados na análise estatística tradicional.

Assim, numa metodologia em que se separe a variabilidade dos dados volume-dependente do resto da variabilidade espera-se obter uma diferença mais precisa entre os diferentes subgrupos leucêmicos envolvidos. Ou seja, pretende-se obter uma diferença mais precisa das diferentes doenças englobadas na Leucemia Linfoide Aguda. Além disso, a variabilidade volume-dependente, destacada do resto da variabilidade, pode revelar informação importante relativo aos genes envolvidos nos processos de regulação do volume celular.

2 Hipótese

A hipótese é que estando a variabilidade volume-dependente identificada e separada do resto da variabilidade, esta última pode representar com maior fidelidade a real diferença da expressão gênica entre os subgrupos leucêmicos. Além disso, a variabilidade volume-dependente pode indicar processos gerais de regulação do volume celular.

3 Objetivos

O objetivo deste estudo é padronizar uma maneira de normalizar dados de expressão gênica pelo volume celular utilizando como modelo dados de expressão gênica da Leucemia Linfoide Aguda (LLA), para os quais se tem dados de tamanho celular obtido por análise de imagem de laminas de sangue para 91 amostras de LLA.

3.1 Objetivos específicos

a) Definir como estimar diâmetro celular (que permite depois calcular o volume celular) a partir das imagens de lamina de sangue;

b) Processar os dados de expressão convencionalmente normalizados juntamente com dados de volume de acordo com o comportamento linear de expressão de determinados genes;

c) Identificar genes que sofrem grande influência do efeito do volume em sua expressão.

(41)

d) Propor um método, não supervisionado, de avaliar a diferença na expressão gênica de diferentes subgrupos moleculares leucêmicos, excluindo a variabilidade devida ao efeito do volume.

e) Propor um método de normalização robusto que permita comparar a expressão duas ou mais amostras de LLA, excluindo a variabilidade devida ao efeito do volume;

4 Material

Como material para este trabalho, foram utilizados dados de microarranjos de expressão gênica e fotografias ampliadas de lâminas de esfregaço de sangue de medula de 91 crianças portadoras de Leucemia Linfoide Aguda (LLA), que foram atendidas no Centro Infantil de Investigações Hematológicas Dr. Domingos A. Boldrini (Campinas, SP). Esses dados são provenientes de 91 amostras LLA derivadas de linfócitos B. Essas 91 amostras são agrupadas em 6 subgrupos diferentes. Tais subgrupos constituem 6 diferentes subtipos moleculares leucêmicos encontrados em cânceres derivados de linfócitos B. Os subtipos e a quantidade de amostras para cada grupo são: 16 Hiperdiploid,16; Philadelphia, 6; Philadelphia-Like, 12, E2A-Pbx1, 7; ETV-RUNX, 16 e Others, 35. Neste trabalho se usa também de abreviações desses subgrupos moleculares: Hyper, Ph, Ph_like, Pbx, ETV, Other, respectivamente.

5 Métodos, Resultados e Discussão por partes

De maneira a tornar a apresentação deste trabalho mais inteligível, o conteúdo do projeto foi dividido em 5 partes. Cada parte subdivide-se em diversos itens onde são apresentados os métodos seguidos pelos resultados e discussões, de maneira sequencial, tornando a apresentação deste trabalho mais fluida e lógica. 5.1 Parte I – Volumes celulares

Nesta primeira seção, calculam-se os volumes celulares médios para cada amostra. Tais resultados são essenciais em todos os cálculos posteriores nesse trabalho.

(42)

Os dados referentes ao tamanho (diâmetro) celular foram obtidos a partir de análise de imagens 2D de laminas com arraste de sangue das 91 amostras. As imagens foram obtidas pelo uso da câmera fotográfica acoplada a um microscópio Nikkon, sob ampliação ocular de 40 vezes.

As imagens foram fotografadas em quadrantes próximos o final do arraste onde as hemácias e linfócitos estão distribuídos de forma mais homogênea e não estão aglutinadas (Figura 7). Foram coletadas cinco imagens de cada lamina.

Figura 7 – Representação de lâmina de sangue de arraste. O arraste se dá da esquerda à direita. O quadrado representa a região a ser ampliada e fotografada.

.

Figura 8 – Foto de uma lamina na região terminal do arraste. Células mais roxas são majoritariamente linfócitos.

As analises das imagens foram feitas a partir do software ImageJ. Cerca de 70 linfocitos foram circulados manualmente para cada amostra. Assim, obteve-se a média, desvio padrao, máximo e mínimo das áreas calculadas.

Então transformou-se a área de cada célula circulada em um volume, considerando como modelo geométrico, a área de corte tranversal e volume total de

(43)

um esferóide oblato. Considerou-se a área circulada, na imagem, como equivalente da seção transversal de máxima área de um esferóide oblato (Equações(5.1)(5.2)).

Figura 9 – Esferoide oblato.

Figura 10 – Seção transversal de um esferoide oblato. Modelo utilizado para transformar uma seção plana circular em um volume.

ó = (5.1)

Á çã = (5.2)

Para transformação da área circular (duas dimensões) em volume (3 dimensões) considerou-se a/b=0.3. Então o volume do esferoide oblato para esse estudo é:

= (5.3)

5.1.2 Resultados dos volumes calculados

As células das 91 amostras foram medidas de acordo com a metodologia descrita na Seção 5.1.1. Os resultados para o volume médio das amostras são apresentados na Figura 11. Os resultados foram normalizados de modo que o menor volume médio encontrado seja igual a um. Isso, pois os resultados não estão numa unidade de volume convencional (como fL, por exemplo), e sim em pixels ao

(44)

cubo. O software ImageJ fornece os resultados das áreas das células, medidas a partir das imagens, em pixels quadrados. Assim, o volume celular, obtido pelo modelo do esferoide, resulta em pixels ao cubo.

Figura 11 – Box plot dos volumes celulares médios para os diferentes subgrupos.

Os resultados obtidos não resultam numa medida absoluta para o volume dos linfócitos estudados. Não se sabe, exatamente, quantos fL possuem as células medidas. No entanto, neste trabalho, o que importa são as relações entre os volumes das amostras. Então, qualquer unidade de medida e qualquer escala, resultariam nos mesmos resultados de expressão gênica, neste trabalho. Porém, os resultados em pixels ao cubo foram transformados em fL (femtolitros) para se trabalhar com unidades mais palpáveis e se ter valores, mesmo que não reais, pelo menos próximos dos reais, na mesma ordem de grandeza, para tal, transformou-se os valores de tal modo que o volume mínimo (amostra de menor volume) estivesse próximo de 125fL. Isso porque linfócitos normais possuem tal distribuição: 166±19.3 fL (range de 126-216 fL) (Kuse et.al., 1985). Como na LLA, embora as amostras tendem a ter volumes de linfócitos maiores (blastos) que linfócitos normais, algumas amostras possuem volume diminutos, como na Figura 12, o que visualmente se assemelha a linfócitos maduros saudáveis. Então a transformação balizou-se pela amostra de menor volume.

Tabela 1 - Valores em fL dos volumes celulares médios das 91 amostras ordenadas de maneira crescente. 1 125 156 178 207 207 209 220 225 230 233 11 234 236 239 239 241 241 255 255 261 262 21 264 265 270 270 271 277 278 282 285 290 31 293 293 296 301 301 303 309 314 315 315 41 324 327 331 332 333 333 341 342 346 347 51 347 354 355 361 366 368 371 379 379 383

(45)

61 387 393 400 410 412 418 421 422 424 424 71 426 430 434 434 440 441 443 447 451 452 81 472 476 482 484 490 500 501 517 525 526 91 669

Figura 12- Fotografias de duas amostras de LLA. A) Amostra cujo volume celular médio dos linfócitos (células roxas) é diminuto. B) Amostra cujo volume celular médio dos linfócitos (células roxas) é aumentado.

5.2 Parte II – Genes que sofrem influência do volume

Na parte II, associam-se os volumes celulares médios, obtidos para cada amostra, com a expressão gênica das respectivas amostras. Assim, acham-se padrões do comportamento da expressão gênica em função do volume, identificando genes que sofrem maior influência do efeito do volume.

5.2.1 Microarranjos de expressão gênica

Em trabalho anterior, foram realizadas análises de microarranjos de expressão Gene 1.0ST (Affymetrix®) nos 91 casos consecutivos de LLA B-derivada, tratados segundo protocolo GBTLI LLA-99 em uma única instituição. Os dados de expressão gênica foram obtidos com o software Microarray Suite 5.0 (MAS 5.0 Affymetrix®).

5.2.2 Ferramenta Robust Multi-array Average (RMA)

Todos os dados foram pré-processados utilizando a ferramenta RMA (Robust Multi-array Average) implementado no software R/Bioconductor (Gentleman et al., 2004).

Referências

Documentos relacionados

Marca Vendedor Veículo Ford João Carro Ford João Caminhão Ford Mário Caminhão Fiat Mário Carro Chevrolet Felipe Carro Chevrolet João Carro Chevrolet João

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

O negrito destaca os eventos dos anos com séries horárias completas...66 Tabela 5.4- Características dos eventos intensos de precipitação identificados nos totais diários de

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

Ao longo da pesquisa foi possível identificar que, embora alguns avanços sejam apontados, principalmente no que tange ao reconhecimento da importância da