UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE CIÊNCIAS BÁSICAS DA SAÚDE
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS BIOLÓGICAS:
BIOQUÍMICA
TESE DE DOUTORADO
IDENTIFICAÇÃO DE REGULADORES MESTRES EM ADENOCARCINOMA DE
PULMÃO E SUA UTILIZAÇÃO PARA A PROSPECÇÃO DE COMPOSTOS
ANTITUMORAIS
Marco Antônio De Bastiani
Porto Alegre
2019
I
IDENTIFICAÇÃO DE REGULADORES MESTRES EM ADENOCARCINOMA DE
PULMÃO E SUA UTILIZAÇÃO PARA A PROSPECÇÃO DE COMPOSTOS
ANTITUMORAIS
Marco Antônio De Bastiani
Tese apresentada ao Programa de
Pós-Graduação
em
Ciências
Biológicas:
Bioquímica do Instituto de Ciências Básicas
da Saúde da Universidade Federal do Rio
Grande do Sul como requisito parcial para a
obtenção do título de doutor em Bioquímica.
Orientador: Prof. Dr. Fábio Klamt
Porto Alegre
2019
CIP - Catalogação na Publicação
De Bastiani, Marco Antônio
IDENTIFICAÇÃO DE REGULADORES MESTRES EM
ADENOCARCINOMA DE PULMÃO E SUA UTILIZAÇÃO PARA A
PROSPECÇÃO DE COMPOSTOS ANTITUMORAIS / Marco Antônio
De Bastiani. -- 2019.
238 f.
Orientador: Fábio Klamt.
Tese (Doutorado) -- Universidade Federal do Rio
Grande do Sul, Instituto de Ciências Básicas da Saúde,
Programa de Pós-Graduação em Ciências Biológicas:
Bioquímica, Porto Alegre, BR-RS, 2019.
1. Biologia de Sistemas. 2. Câncer de Pulmão. 3.
Bioinformática. 4. Farmacologia de Sistemas. 5.
Reposicionamento Computacional de Drogas. I. Klamt,
Fábio, orient. II. Título.
Elaborada pelo Sistema de Geração Automática de Ficha Catalográfica da UFRGS com os
dados fornecidos pelo(a) autor(a).
III
AGRADECIMENTOS
Ao professor Fábio Klamt, por ter aberto as portas do laboratório para mim, pela
orientação, confiança e amizade.
Aos meus colegas de laboratório, foi uma honra e um prazer conhecer vocês e
fazer parte de um grupo tão especial.
À minha família pelo apoio e compreensão, por estar sempre ao meu lado, me
incentivando a sempre buscar meus objetivos e nunca deixar de acreditar em mim.
Ao programa de pós-graduação em Bioquímica por oportunizar a realização desse
doutorado.
IV
SUMÁRIO
APRESENTAÇÃO ... V
PARTE I ... 1
RESUMO ... 2
ABSTRACT ... 3
LISTA DE ABREVIATURAS ... 4
INTRODUÇÃO ... 5
Epidemiologia do Adenocarcinoma de Pulmão ... 6
Biologia de Sistemas ... 10
Redes Biológicas e Engenharia Reversa de Redes de Expressão Gênica ... 16
Reguladores Mestres ... 20
Reposicionamento Computacional de Drogas ... 22
JUSTIFICATIVA ... 25
OBJETIVOS ... 26
Objetivos específicos: ... 26
PARTE II ... 27
CAPÍTULO I ... 28
CAPÍTULO II ... 42
PARTE III ... 75
DISCUSSÃO ... 76
Conclusão ... 88
Perspectivas ... 89
REFERÊNCIAS ... 91
ANEXOS... 102
Anexo IA ... 103
Anexo IB ... 126
Anexo II ... 225
V
APRESENTAÇÃO
Essa tese está dividida em três partes, contendo os seguintes itens:
Parte I: Resumo, Resumo em inglês (Abstract), Lista de abreviaturas, Introdução e
Objetivos;
Parte II: Resultados, divididos em dois capítulos, e apresentados na forma de artigos
científicos.
Parte III: Discussão e Referências Bibliográficas.
Essa tese contém ainda a seção Anexos composta artigos científicos publicados
em colaborações durante o período de doutorado.
Este projeto foi realizado no Laboratório de Bioquímica Celular – LBC
(laboratório 24) sob orientação do Prof. Dr. Fábio Klamt, Departamento de Bioquímica
Prof. Tuiskon Dick do Instituto de Ciências Básicas da Saúde, Universidade Federal do
Rio Grande do Sul e
foi financiado pelo Conselho Nacional de Desenvolvimento
Científico e Tecnológico (CNPq) - Instituto Nacional de Ciências e Tecnologia
Translacional em Medicina (INCT-TM #465458/2014-9).
2
RESUMO
O câncer de pulmão é uma das neoplasias malignas mais incidentes e letais da
oncologia. Ademais, o adenocarcinoma pulmonar compreende o subtipo histológico mais
comum e cuja frequência tem aumentado em detrimento de outros tipos nos últimos anos,
especialmente em mulheres. Portanto, o entendimento da patofisiologia deste tipo de
câncer e a busca por biomarcadores confiáveis, além de novas abordagens terapêuticas e
regimes de tratamento, constituem áreas importantes de pesquisa e avanço biomédico.
Nas últimas décadas, a Biologia de Sistemas coalesceu e fortaleceu-se com o advento de
tecnologias ômicas e da bioinformática, viabilizando e impulsionando o estudo da
biologia no contexto de sistemas complexos. Desta forma, este trabalho procura utilizar
dados transcriptômicos e estratégias de bioinformática para obter fatores de transcrição
candidatos a reguladores mestre do adenocarcinoma pulmonar, utilizado métodos,
conceitos e visões oriundas da Biologia de Sistemas. Adicionalmente, desenvolvemos
uma metodologia de reposicionamento computacional de drogas e aplicamos esta
estratégia para obter drogas candidatas a elaboração de novos regimes terapêuticos. O
primeiro passo do estudo foi a reconstrução de redes de co-expressão gênica centradas
em fatores de transcrição e seus alvos utilizando informação de tecido não-tumoral, a fim
de estabelecer redes de referência. Posteriormente, os grupos de genes constituídos pelos
fatores de transcrição e seus alvos, conjuntamente chamados de unidades regulatórias,
foram investigados quanto a seus perfis de expressão diferencial utilizando estudos
caso-controle. As unidades regulatórias dos fatores de transcrição enriquecidos de genes
diferencialmente expressos em mais de 80% dos estudos caso-controle, para ambas as
redes de referência, foram consideradas reguladores mestre candidatos da patologia. Esta
estratégia resultou em nove fatores de transcrição – ATOH8, DACH1, EPAS1, ETV5,
FOXA2, FOXM1, HOXA4, SMAD6 e UHRF1. Em seguida, testamos se os estados de
ativação inferidos para estes fatores de transcrição possuíam potencial prognóstico em
diferentes coortes de adenocarcinoma, e observamos que três dos nove mostraram
associações consistentes com o desfecho de pacientes. Finalmente, utilizamos as unidades
regulatórias destes três fatores de transcrição – FOXA2, FOXM1 e UHRF1 – para
prospectar drogas candidatas a reposicionamento, o que resultou em seis compostos
potencialmente capazes de reverter os perfis transcricionais encontrados no contexto
patológico. Estes compostos são: deptropina, promazina, ácido valproico, azaciclonol,
metotrexato e composto ChemBridge ID 5109870. Avaliações dos potenciais terapêuticos
destes fármacos e seus mecanismos de ação neste câncer podem auxiliar no
desenvolvimento de novos tratamentos. Da mesma forma, elucidação dos papéis
biológicos específicos dos nove reguladores mestres também tem grande potencial de
contribuir para o entendimento da biologia do adenocarcinoma de pulmão.
3
ABSTRACT
Lung cancer is one of the most common and lethal pathologies of medical
oncology. Furthermore, adenocarcinoma comprises the most prevalent lung cancer
histological subtype, which frequency increased over other types in recent years,
especially among women. For these reasons, further understanding about the
pathophysiology of this type of cancer and the search for reliable biomarkers, for new
therapeutic drugs and for improved treatment strategies are all important areas of
biomedical research and development. In recent decades, the Systems Biology paradigm
emerged and strengthened due to novel omic technologies and bioinformatics, enabling
and enhancing the study of biological phenomena in the context of complex systems.
Thus, this study aims to search for the transcription factors acting as master regulators of
lung adenocarcinoma using transcriptomics and employing Systems Biology concepts
and views. Additionally, we developed a computational drug repositioning method and
implemented it to retrieve candidate molecules for new treatment strategies. The first step
in our study involved the reconstruction of co-expression gene networks centered in
transcription factors and their targets using non-tumoral data in order to establish
reference networks. Afterwards, the groups of genes comprising transcription factors and
their targets, collectively called regulatory units, were queried for their differential
expression profiles using case-control studies. Regulatory units of the transcription
factors enriched with differentially expressed genes in over 80% of case-control studies,
for both reference networks, were considered master regulator candidates of the disease.
This strategy retrieved nine transcription factors - ATOH8, DACH1, EPAS1, ETV5,
FOXA2, FOXM1, HOXA4, SMAD6 and UHRF1. Following that, we tested whether the
inferred activities of these master regulators' regulatory units were associated with patient
survival using several cohorts datasets, which highlighted three of them consistently
associated with patient outcome. Finally, the regulatory units of these three transcription
factors - FOXA2, FOXM1 e UHRF1 - were used to query drug candidates for
repositioning in lung adenocarcinoma, resulting in six molecules capable to revert
disease's the transcriptional profile. These drugs were deptropine, promazine, valproic
acid, azacyclonol, methotrexate and ChemBridge ID compound 5109870. The evaluation
of their therapeutic potentials and mechanisms of action in lung cancer may assist the
development of new treatments. Additionally, further investigations of the retrieved
master regulators' roles may lead to improvements in our understanding of
adenocarcinoma pathophysiology.
4
LISTA DE ABREVIATURAS
CPNPC
Câncer de Pulmão de Não-Pequenas Células
EGFR
Epithelial Growth Factor Receptor
ALK
Anaplastic Lymphoma Kinase
TKI
Inibidores de Tirosina Cinase (Tirosine Kinase Inhibitors)
BN
Rede Bayesianas (Bayesian Networks)
MI
Informação Mútua (Mutual Information)
CMap
Mapa de Conectividade (Connectivity Map)
GSEA
Análise de Enriquecimento de Grupos de Genes (Gene Set Enrichment Analysis)
GEO
Gene Expression Omnibus
HDAC
Histona Deacetilase (Histone Deacetylase)
DNMT1 DNA Metiltransferase 1
ATOH8 Atonal Homolog 8
ETV5
ETS Variant 5
SMAD6 SMAD family member 6
HOXA4 Homeobox A4
UHRF1
Ubiquitin Like with PHD and Ring Finger Domains 1
DACH1 Dachshund Family Transcription Factor 1
EPAS1
Endothelial Periodic Acid-Schiff Domain Protein 1
FOXA2 Forkhead Box A2
FOXM1 Forkhead Box M1
5
INTRODUÇÃO
O câncer de pulmão é a neoplasia maligna mais insidiosa e agressiva da oncologia,
sendo responsável pelo maior número de mortes relacionadas a câncer no mundo [1].
Assim, a identificação de marcadores e assinaturas moleculares que possam auxiliar no
diagnóstico, prognóstico, ou tratamento constitui uma importante estratégia de estudar e
caracterizar os mecanismos que subjazem esta patologia, abrir caminho para o
desenvolvimento de fármacos e melhorar o manejo dos pacientes acometidos por esta
enfermidade. Por outro lado, esta não é uma tarefa trivial.
Apesar de existirem diversos hallmarks reconhecidamente fundamentais para a
iniciação e desenvolvimento tumoral [2], a complexidade inerente dos sistemas
biológicos impõe diversas dificuldades na pesquisa biomédica, seja ela básica ou clínica.
Diferente de sistemas complicados, cujos diversos elementos apresentam relações bem
definidas de causa e efeito; em sistemas complexos, as relações entre os elementos são
muitas vezes desconhecidas. Desta forma, manifestações de sistemas complexos - como
fenótipos patológicos e comportamento animal, por exemplo - podem apresentar padrões
gerais, porém na maioria das vezes não são inteiramente previsíveis. Evidentemente,
várias características distinguem sistemas complexos de outros tipos de sistemas
organizacionais. Exemplos são a dificuldade de reduzir suas manifestações a
componentes elementares; a necessidade de se considerar as condições locais entre
elementos e grupos de elementos; as interdependências entre elementos e grupos de
elementos; a não-linearidade resultante de todas estas considerações. Por outro lado, isto
também permite que sistemas complexos manifestem propriedades únicas e essenciais
aos organismos vivos, tais como modularidade, robustez e adaptabilidade [3–5].
6
Desta forma, as seções abaixo almejam elaborar a problemática do câncer de
pulmão sob o paradigma de complexidade, focando no adenocarcinoma pulmonar, além
de introduzir conceitos e ideias importantes para o entendimento da estratégia geral
utilizada para abordar o problema durante esta tese.
Epidemiologia do Adenocarcinoma de Pulmão
Relatórios anuais de estatística oncológica dos últimos anos mostram que o câncer
de pulmão ocupa o segundo lugar nas estimativas de novos casos e primeiro lugar na
estimativa de mortes relacionadas a câncer (Figura 1) [1]. No Brasil, a estatística de
incidência do câncer de pulmão segue os padrões mundiais para homens, porém é menor
em mulheres, segundo dados do Instituto Nacional de Câncer (Figura 2) [6]. Neste
cenário, aproximadamente 95% dos tumores primários de pulmão são carcinomas, cujos
quatro principais tipos histológicos são adenocarcinoma, carcinoma de células
escamosas, carcinoma de células pequenas e carcinoma de células grandes [7].
Historicamente, carcinomas de pulmão foram agrupados em duas grandes classes: câncer
de pulmão de pequenas células e câncer de pulmão de não-pequenas células (CPNPC).
Este grupo inclui adenocarcinomas, carcinomas de células escamosas e de células grandes
[8,9].
7
Figura 1. Estimativa de novos casos e de mortes para os dez tipos de câncer mais prevalentes
nos Estados Unidos em 2018, por sexo. Adaptado de Siegel et al. [10]
O CPNPC representa cerca de 85% dos casos diagnosticados e, apesar de todos
os esforços, o prognóstico é ruim, com aproximadamente 50% das mortes ocorrendo no
primeiro ano após o diagnóstico e a sobrevida em 5 anos na faixa dos 15%-20%. Um dos
motivos para esta baixa taxa de sobrevivência é o estágio da doença no momento do
diagnóstico. Aproximadamente 70% dos pacientes diagnosticados apresentam a doença
avançada ou com metástases (estágios III/IV), o que torna as opções de tratamento
bastante reduzidas [9,11]. Cirurgia, radiação, quimioterapia, terapia alvo e imunoterapia
são as estratégias terapêuticas utilizadas e a escolha depende grandemente do estágio da
doença. Cirurgia é o tratamento de preferência para estágios I e II, sendo curativa em boa
parte dos casos. Quimioterapia e radiação são utilizadas de forma adjuvante pós-cirurgia,
8
particularmente em estágios II e IIIA, e para o controle da patologia em estágios mais
avançados. Entre os fármacos mais utilizados encontram-se a cisplatina, carboplatina,
docetaxel, gemcitabine, paclitaxel, vinorelbina e pemetrexato. Terapias alvo para
marcadores como EGFR e ALK são utilizadas para pacientes apresentando mutações
nestas proteínas. Finalmente, a imunoterapia surgiu recentemente como uma alternativa
interessante, particularmente na forma de anticorpos contra PD-1, uma proteína que
prejudica a habilidade de células imune combater o tumor [12,13]. Outro fator
determinante para justificar as elevadas taxas de mortalidade no câncer de pulmão é a
ocorrência de resistência à quimioterapia [14]. Em contrapartida, tumores detectados em
momentos iniciais apresentam prognóstico bastante favorável, com sobrevida média em
5 anos maior de 70% para estágio I [15].
Figura 2. Distribuição proporcional dos dez tipos de câncer mais incidentes no Brasil, estimados
para 2018 por sexo, exceto pele não melanoma. Adaptado do relatório INCA [6].
Tabagismo é o fator de risco mais expressivo para o desenvolvimento de câncer
de pulmão e a ele é atribuído os grandes índices desta enfermidade durante o final do
século XX até recentemente. Esforços mundiais para reduzir o consumo de tabaco,
iniciados nas décadas de 60 e 70, auxiliaram significativamente para recentes reduções
das taxas de incidência, especialmente em homens [1,10,16]. Por outro lado, nas últimas
9
décadas, a incidência de adenocarcinoma aumentou constantemente em detrimento de
outros tipos histológicos, de forma que hoje ele representa a maior parte dos carcinomas
de pulmão diagnosticados nos Estados Unidos, Europa e Ásia. Este aumento é
especialmente alarmante entre mulheres não-fumantes [17]. Diferenças históricas na
adoção de hábitos tabagistas são sugeridas para explicar atuais atrasos nas diminuições
nas taxas de incidência de câncer de pulmão em mulheres. Contudo, cerca de 53% das
mulheres que desenvolvem CPNPC nunca fumaram enquanto apenas 15% de homens que
desenvolvem este câncer nunca fumaram. Com efeito, muitas observações na literatura
sugerem a influência do estrogênio como um fator de risco adicional para o
desenvolvimento de adenocarcinoma pulmonar [18,19].
Assim, a elevada letalidade, o diagnóstico tardio, a resistência à quimioterapia, os
fatores de risco não associados ao tabagismo, todas essas razões justificam a grande
necessidade de biomarcadores preditivos e/ou prognósticos confiáveis e precisos para o
adenocarcinoma pulmonar. Um biomarcador é definido como características que possam
ser objetivamente medidas e avaliadas como um indicador de processos fisiológicos,
patológicos ou resposta farmacológica a intervenções específicas. Biomarcadores
prognósticos fornecem informações sobre o desfecho geral do indivíduo,
independentemente de terapia, e a presença ou ausência deste tipo de marcador pode ser
útil para seleção de subpopulações de pacientes com diferentes características patológicas
ou clínicas, mas não para predizer resposta a tratamento. Biomarcadores com potencial
preditivo oferecem informações sobre o efeito de intervenções terapêuticas em pacientes,
auxiliando no monitoramento durante o tratamento [20]. Deveras, grande parte da
pesquisa oncológica nas últimas décadas foca na obtenção destes indicadores [21]. Uns
dos resultados foi identificação de marcadores de grande sucesso no CPNPC, como
EGFR (epithelial growth factor receptor), ALK (anaplastic lymphoma kinase) e outros.
10
Tais avanços, por conseguinte, favoreceram o desenvolvimento de terapias direcionadas
baseadas em inibidores de tirosina cinase (tirosine kinase inhibitors – TKI), amplamente
utilizados na clínica atual. Contudo, diretrizes atuais recomendam a avaliação de perfis
moleculares utilizando diversos indicadores simultaneamente, a fim de caracterizar mais
detalhadamente e individualmente a patologia de cada paciente e assim auxiliar a decisão
terapêutica [8,22].
Biologia de Sistemas
Uma das maiores implicações do Projeto Genoma Humano foi o melhoramento
da nossa habilidade de caracterizar perturbações sistemicamente, usando técnicas de larga
escala, levando à evolução de outras ferramentas ômicas (transcriptômica, proteômica,
metabolômica, etc.) em complemento à genômica. Consequentemente, elas se tornaram
os métodos de escolha para a avaliação rápida, sistêmica e eficiente das propriedades e
dinâmicas de processos biológicos em amostras oriundas de ensaios celulares, de modelos
animais pré-clínicos e estudos humanos. Simultaneamente, a Biologia de Sistemas
coalesceu e fortaleceu-se com o desenvolvimento destas tecnologias nos últimos 30 anos.
Porém, esta ideia já pairava desde os anos 50 e 60 entre matemáticos e teoristas de
sistemas como Norbert Wiener, Ludwig von Bertalanffy e Mihajlo Mesarovic, os quais
perceberam que sistemas complexos não podem ser facilmente “reduzidos” ou explicados
por leis determinísticas simples [23].
O termo “Biologia de Sistemas” foi cunhado por Mihajlo Mesarovic em 1968 para
descrever uma abordagem multidisciplinar e sistêmica para o estudo da biologia. Estudar
biologia sob um paradigma sistêmico requer uma revisão da estratégia de investigação.
Enquanto o entendimento dos genes e proteínas continua importante, o foco é o
entendimento das estruturas e dinâmicas do sistema. Estruturas sistêmicas incluem redes
11
de interação molecular e vias metabólicas, bem como os mecanismos pelos quais estas
interações modulam as propriedades funcionais de estruturas intracelulares e
multicelulares. Dinâmicas sistêmicas avaliam como sistemas comportam-se com o passar
do tempo, ou sob várias condições e perturbações. De fato, a teoria de sistemas, a partir
da qual a Biologia de Sistemas deriva, compreende que os elementos individuais são
determinantes muito menos importantes para o comportamento do sistema quando
comparados com a interação entre eles [24–26].
Figura 3. Esquema da pirâmide de complexidade biológica ilustrando o fluxo de informação e
complexidade dos elementos fundamentais dos sistemas biológicos. Adaptado de Oltvai and
Barabási [27]
Outra consideração importante durante o estudo da biologia sob a perspectiva da
Biologia de Sistemas é a presença e influência dos diferentes níveis hierárquicos de
organização e funcionalidade biológicos (Figura 3) [27,28]. A existência de níveis
hierárquicos implica que os componentes do sistema estão restritos a cooperarem para
12
atingir estados homeostáticos estáveis [29–31]. O desafio é perceber que cada nível da
hierarquia de informação na cadeia DNA RNA proteína interações proteicas
vias metabólicas redes de interação células tecidos organismo populações
ecologias corresponde a subestruturas da complexidade biológica. Ademais, cada
elemento desta cadeia apresenta os atributos que caracterizam sistemas complexos, e tem
a capacidade influenciar outros níveis. Por certo, nenhuma correspondência simples pode
ser feita entre os diversos níveis hierárquicos, o que levou à revisão e reelaboração de
diversos paradigmas clássicos. Por exemplo, a função de genes, sob esta perspectiva, está
distribuída ao longo das conexões dinâmicas não-lineares que seus produtos assumem e
da estocasticidade da expressão gênica em nível celular, o que permite a interpretação de
observações experimentais e modelos que outrora pareceriam inexplicáveis e mitiga o
caráter determinístico antigamente consignado ao gene [32–34].
Os arranjos biológicos apresentam muitas propriedades que não podem ser
antecipadas simplesmente pelo estudo detalhado de seus componentes individuais. Estas
características intrínsecas são referidas como propriedades emergentes [29,35]. A
estocasticidade da expressão gênica, primeiramente proposta por Kupiec, é um exemplo
de dinâmica não-linear de sistemas complexos [36,37]. Similarmente, interações
proteicas também apresentam estocasticidade e dependem grandemente das condições
bioquímicas e biofísicas do microambiente em que se encontram [38]. O termo “dinâmica
não-linear” refere-se, simplificadamente, a mudanças cujas entidades (quantidades,
intensidades, efeitos) não escalam em conjunto com suas causas. Em outras palavras,
relações de proporcionalidade distorcem-se quando a magnitude das variáveis atinge
limites específicos. Um sistema move-se de um regime linear para um não-linear quando
um ou mais parâmetros sofrem flutuações acima de um limite crítico, levando a um ponto
de bifurcação. Estes pontos são caracterizados por quebras de simetria, permitindo ao
13
sistema “escolher” entre diversos destinos e adquirir características distintas. As quebras
de simetria conferem diferentes soluções para os mesmos valores de parâmetros e
atribuem irreversibilidade ao sistema, posicionando-o, portanto, em uma escala temporal.
Isto permite que o sistema evolua em direção à novidade e à variabilidade, conferindo a
ele uma "história", na qual sua evolução dependerá das “escolhas” tomadas nos pontos
de quebra de simetria [39,40].
Outras propriedades emergentes importantes são a robustez, a adaptabilidade e a
modularidade. A robustez refere-se à habilidade de um sistema manter suas funções
básicas mesmo na presença de perturbações. A adaptabilidade, por sua vez, assegura ao
circuito os meios de garantir a robustez, seja por intermédio de novas interações entre
elementos que anteriormente não interagiam, seja pela modificação de interações já
existentes, seja pela mudança dos níveis ou intensidades de interações funcionais, etc.
Finalmente, a modularidade é um mecanismo eficaz para conter a propagação de
perturbações prejudiciais, confinando-as localmente, evitando danos ao arranjo como um
todo e também assegurando robustez. Em organismos multicelulares, a célula é um
exemplo marcante de modularidade [41–44].
Além das mudanças de perspectiva, a imensa quantidade de informação
disponibilizada pelas tecnologias high-throughput também impulsionou o surgimento de
vários tipos de bancos de dados ômicos. Afinal, mesmo que pesquisadores individuais
consigam arrecadar uma grande quantidade de dados, nenhum investigador sozinho é
capaz de interpretar ou conhecer toda a complexidade que subjaz determinado fenômeno
ou conjunto de fenômenos biológicos. A Tabela 1 mostra alguns dos bancos online de
informações ômicas disponíveis atualmente.
14
Abordagem de
Origem
Nome
URL
Descrição
Genômica
NCBI
http://www.ncbi.nlm.nih.gov
Banco de dados e
ferramenta de pesquisa
de experimentos
genômicos,
epigenômicos e
transcriptômicos
GWAS Catalog
http://www.genome.gov/gwastudie
s/
Catálogo de estudos de
associação gênica
(Gene-Wide Association Study)
Transcriptômica
ArrayExpress
http://www.ebi.ac.uk/arrayexpress/
Banco de dados de
experimentos de
genômica funcional.
Inclui expressão gênica a
partir de estudos de
microarranjo e
sequenciamento.
GEO
http://www.ncbi.nlm.nih.gov/geo/
Repositório público de
microarranjos,
sequenciamento e outras
formas de dados de
genômica funcional.
miRBase
http://www.mirbase.org
Banco de dados de
sequências e anotações
de miRNA publicados.
Proteômica
Human Protein
Reference Databas
http://www.hprd.org
Plataforma de
visualização e integração
de informações
proteômicas.
PRoteomics
IDEntifications
(PRIDE)
http://www.ebi.ac.uk/pride/
Repositório público de
dados proteômicos,
incluindo identificação
de proteínas, peptídeos e
modificações
pós-traducionais.
UniProt
http://www.uniprot.org
Banco de dados de
função e anotação
proteica.
Fosfoproteômica
PhsophoSitePlus
http://www.phosphosite.org/
Fonte curada
manualmente de dados
experimentais de
modificações
pós-traducionais.
Phosph.ELM
http://phospho.elm.eu.org/
Banco de dados de sítios
de fosforilação.
PTMcode
http://ptmcode.embl.de
Fonte de associações
conhecidas e preditas
entre modificações
pós-traducioanis de proteínas.
Metabolômica
Human Metabolome
Database
http://www.hmdb.ca
Banco de dados de
anotação de matabólitos
detectados em fluidos
biológicos e tecidos.
15
Bancos de Dados
de Interação
Proteica
BioGRID
http://thebiogrid.org
Banco de dados de
interações proteicas.
Database of
Interacting Proteins
http://dip.doe-mbi.ucla.edu/dip/
Banco de dados de
interações proteicas
observadas
experimentalmente.
STRING
http://string.embl.de
Banco de dados de
interações proteicas
conhecidas e preditas.
CORUM
http://mips.helmholtz-
muenchen.de/genre/proj/corum
Fonte de anotações de
complexos proteicos
manualmente curadas.
PCDq
http://h-invitational.jp/hinv/pcdq/
Banco de dados de
anotações de interações
proteicas humanas.
Bancos de Dados
de Vias
KEGG
http://www.genome.jp/kegg/
Banco de dados de
mapas metabólicos, vias
e doenças.
NCI Pathway
Interaction Database
http://pid.nci.nih.gov
Coleção de vias humanas
curadas manualmente.
REACTOME
http://www.reactome.org/
Banco de dados de vias
curado e revisado
manualmente.
Adaptado de Berg et al. [45]
Nesta tese, foram utilizados dados transcriptômicos para abordar a problemática
do adenocarcinoma pulmonar sob uma perspectiva sistêmica. A transcriptômica fornece
informação sobre RNA mensageiros transcritos por uma célula ou tecido de interesse.
Microarranjo de DNA foi um dos métodos inicialmente desenvolvidos, justificando a
grande quantidade de dados disponíveis nos repositórios online utilizando-o. Contudo,
novas tecnologias de detecção transcricional utilizando sequenciamento, como RNA-seq,
ganharam grade adesão da comunidade científica nos últimos 10 anos por oferecem
benefícios singulares; tais como não necessitar de conhecimento prévio sobre a sequência
do transcrito, facilitar a identificação de eventos de edição transcricional, permitir o
estudo de sequências não-codificantes, possuir maior resolução e acurácia (Figura 4) [46–
48]. Por outro lado, a informação transcricional nem sempre se corresponde com os níveis
proteicos e por isso é preciso cautela na interpretação e formulação de modelos ou
16
estratégias experimentais utilizando este tipo de dado. Não obstante, estudos biomédicos
utilizando transcriptômica são úteis para a identificação de vias e módulos funcionais
ativos ou modificados em um sistema ao longo do tempo, ou sob perturbações controladas
ou em condições patológicas.
Figura 4. Sumário simplificado das diferenças entre as duas tecnologias transcriptômicas mais
utilizadas.
Redes Biológicas e Engenharia Reversa de Redes de Expressão Gênica
Redes de interação são aspectos fundamentais da estrutura organizacional de
sistemas complexos e muito da pesquisa em Biologia de Sistemas foca em redes
biológicas para explicar fenômenos patológicos e fisiológicos. De tal modo, as
17
conectividades intracelulares e intercelulares implicam que a influência de uma
anormalidade específica não ficará restrita ao elemento defeituoso. Ela poderá
propagar-se para os interatores deste elemento alterado e prejudicar a função de um elemento
não-defeituoso. Na verdade, doenças emergem quando perturbações em componentes de redes
moleculares culminam na incapacidade de manter os intrincados mecanismos
responsáveis por sustentar a homeostasia do organismo num estado "saudável", forçando
o sistema a assumir estados homeostáticos diferentes, porém similarmente favoráveis, na
topologia fase-espaço de arranjos termodinamicamente possíveis [41,49,50]. Portanto,
doenças são raramente consequências de anormalidades em um único gene ou produto
gênico. Elas são usualmente processos de muitas etapas, com muitos protagonistas, e no
qual muitas vezes a interação entre estes protagonistas nas diferentes etapas irá direcionar
o destino do sistema para o fenótipo patológico. Estes princípios e as ferramentas e
métodos que derivam deles impulsionaram subáreas específicas da Biologia de Sistemas,
tais como Biologia de Redes e Medicina de Redes.
A estrutura básica de qualquer tipo de rede contém nodos (ou vértices) e
conectores (ou arestas). Entretanto, uma importante característica sobre redes de sistemas
complexos é que elas não são aleatórias, mas sim seguem diretrizes básicas de
organização e desenvolvimento [51]. Estas diretrizes ou princípios organizacionais
permitem o desenvolvimento das propriedades emergentes observadas nestes sistemas,
como a modularidade, por exemplo (Figura 5). A maioria das redes biológicas apresenta
graus elevados de agrupamento entre conjuntos de nodos, caracterizando topologias
modulares contendo alta interconectividade [52,53]. Outra propriedade é a
desproporcionalidade de conexões entre os vértices, levando a redes livres de escala, em
que uma proporção restrita de elementos apresenta uma quantidade relativamente maior
de associações do que a média do restante dos nodos. Estes vértices são conhecidos como
18
hubs [51,54]. Finalmente, outro aspecto é a
propriedade de mundo pequeno (small world
proprerty), implicando que a perturbação de
um nodo pode afetar a atividade dos seus
interatores, bem como o comportamento da
rede inteira [55].
Deste modo, redes de interação gênica
permitem-nos identificar moléculas ou grupos
de elementos potencialmente importantes para
o desenvolvimento e controle da patologia.
Estes elementos ou seus módulos são
candidatos promissores a biomarcadores e
também podem fornecer insights para o
desenvolvimento de terapias [56,57]. Uma
estratégia bastante utilizada para caracterizar
redes de interação gênica é chamada
engenharia reversa, um processo no qual redes
são
reconstruídas
a
partir
de
dados
experimentais high-throughput. Em modelos
derivados de engenharia reversa de redes
biológicas, os nodos representam componentes
dinâmicos encontrados nos organismos vivos
(como genes, proteínas, metabólitos, etc.) e as
arestas indicam alguma associação observada
entre os elementos utilizados [58,59].
Figura 5. Exemplos esquemáticos de
estruturas de redes de sistemas
complexos. (A) Configuração de uma
rede livre de escala, com elementos
altamente conectados chamados hubs
(círculos azuis) e sem módulos. (B)
Esquema ilustrativo de rede com quatro
módulos interconectados entre si e sem
hubs. (C) Rede hierárquica com
modularidade. Adaptado de Ravaz et al.
[52].
19
Duas principais metodologias lideram o campo da engenharia reversa de redes de
expressão gênica. A primeira emprega redes Bayesianas (BN - Bayesian Networks), uma
classe de modelos gráficos probabilísticos que representa a distribuição de probabilidade
conjunta multivariada como grafos acíclicos direcionados. Nestas redes, nodos
correspondem a genes e arestas correspondem a dependências tipo pais-filhos. Estes
modelos assumem que genes são condicionalmente independentes de seus
não-descendentes, dado seus pais (pressuposto de Markov). Computacionalmente, as BN são
calculadas utilizando funções de ranque para avaliar a probabilidade de conjuntos
possíveis de redes, dada a expressão conhecida, e selecionar as mais prováveis. Uma
limitação importante de BN encontra-se no pressuposto de Markov. Isto significa que um
gene X pode ser modulado por seus reguladores upstream (pais), mas não por seus
elementos downstream (filhos), o que pode não ser o caso em muitas situações biológicas,
tipo alças de retroalimentação [59–64].
O segundo método de reconstrução de redes amplamente utilizado é baseado em
informação mútua (MI – mutual information), um conceito extraído de teoria de
informação e que também é capaz de capturar associações entre genes através de
dependências estatísticas. Na verdade, esta é a abordagem mais bem-sucedida e verificada
experimentalmente. A definição de MI requer o pressuposto de que existem
independências estatísticas entre os níveis de expressão de genes, o que permite a
inferência se subgrupos de associações verdadeiras. Contudo, genes separados por
associações indiretas podem co-expressar em conjunto sem que exista uma relação
biológica funcional, resultando em falsos positivos. Para amenizar este viés, uma
estratégia utilizada emprega outro conceito de teoria de informação conhecida como data
20
Reguladores Mestres
Mudanças em perfis de expressão gênica são etapas fundamentais no processo de
especificação fenotípica em contextos fisiológicos e o mesmo vale em transições para
estados patológicos. As modulações destas etapas de mudança transcricional são
mediadas em grande parte por fatores de transcrição. Esta característica permite que um
número relativamente pequeno de moléculas produza uma diversidade comparativamente
muito maior de estados fenotípicos. De fato, em diversos contextos biológicos, como em
células embrionárias ou câncer por exemplo, pode-se observar que um número
relativamente pequeno de fatores de transcrição são importantes atores da regulação
transcricional até diferentes desfechos celulares [34,67–71]. Por isso, fatores de
transcrição estão em uma posição privilegiada para atuarem como reguladores mestres da
transcrição gênica.
As primeiras aplicações do termo “regulador mestre” foram utilizadas para
descrever moléculas ocupando o topo da hierarquia transcricional, fora da influência
regulatória de outros genes. Contudo, redefinições deste conceito evoluíram para
acomodar visões mais abranges da realidade biológica observada. Uma destas evoluções
conceituais contempla que reguladores mestres são os líderes da especificação de
linhagens celulares por modular diversos genes direta ou indiretamente através de
cascatas de mudanças de expressão gênica, ultimamente retendo a capacidade de
redirecionar o desfecho celular. Nesta articulação, o potencial de especificação de
linhagens é essencial, pois implica que estes reguladores tem a capacidade de reter
plasticidade fenotípica e “impor” alterações durante e mesmo depois de atingir um destino
celular qualquer (Figura 6) [72,73].
21
Figura 6. Esquema teórico do potencial de especificação de linhagens celulares para fatores de
transcrição atuando como reguladores mestres da expressão gênica. O balanço e intensidade
de expressão de dois reguladores mestres determinam diferentes desfechos fenotípicos da
célula, ainda retendo plasticidade para adotar outros estados conforme modificações na
dinâmica de expressão de ambos.
A busca de reguladores mestres como biomarcadores moleculares de patologias
mostrou resultados interessantes em diversas áreas da pesquisa biomédica. Na
imunologia, por exemplo, Lefebvre e colaboradores encontraram e validaram MYB e
FOXM1 como reguladores mestres da resposta imune mediada por antígeno [74]. Piao e
colaboradores propuseram 5 reguladores mestres para diabetes tipo 2 e seus respectivos
alvos transcricionais [75]. Finalmente, a busca de reguladores mestres de cânceres
22
também é bastante promissora, com resultados importantes em gliblastoma e câncer de
mama [70,76–79].
Reposicionamento Computacional de Drogas
A Biologia de Sistemas, dados high-throughput e bioinformática também
favoreceram a adoção de uma nova visão em conceitos, pesquisas e abordagens
farmacológicas para o tratamento de diversas doenças. Desta maneira, surgiu a
Farmacologia de Sistemas, utilizando diversos princípios sistêmicos para a descoberta e
o reposicionamento de fármacos [45,80–84]. O reposicionamento de drogas é a prática
de utilizar compostos já conhecidos e utilizados para determinada doença em outros
contextos patológicos. Neste campo, a estratégia de Mapas de Conectividade (connectiviy
map – CMap) revolucionou a maneira como se busca drogas candidatas para
reposicionamento. Na descrição original desta abordagem, os autores utilizaram análise
de enriquecimento de grupos de genes (Gene Set Enrichment Analysis – GSEA), na qual
se testam listas de genes cujas expressões correlacionam-se a estados biológicos de
interesse e avalia-se suas similaridades com uma coleção de perfis de expressão gênica
de referência obtida de culturas celulares tratadas com centenas ou milhares de moléculas
bioativas. O resultado é uma lista de compostos com uma métrica de conectividade, na
qual valores negativos associam-se com reversão do perfil de expressão do estado
biológico de interesse testado e valores positivos associam-se com perfis de expressão
similares ao estado biológico testado [85–88].
Muitos estudos foram conduzidos com o intuito de refinar e aumentar o potencial
do CMap desde sua concepção, buscando novas e melhores métricas ou modificações no
fluxo de trabalho original [89–92]. Estas adaptações podem ser subdivididas em duas
grandes categorias: abordagens tentando identificar conexões droga-doença ou inferir
23
conexões droga-droga (Figura 6). A primeira assume que se uma assinatura gênica
representando a resposta de um fármaco utilizado na clínica é negativamente
correlacionada com o perfil de expressão da doença, então esta droga pode ser utilizada
para reverter a assinatura molecular da patologia, tornando-se uma candidata para
reposição. A segunda classe de modificações metodológicas incorpora o conceito de
“culpa-por-associação” (guilt-by-association – GBA), em que se dois compostos
produzem assinaturas gênicas similares, então eles compartilham modos de ação comuns,
mesmo se agirem em diferentes alvos intracelulares; neste caso, o primeira composto
poderia ser reposicionado para tratar condições em que o segundo é utilizada e vice-versa
[93].
Aplicações iniciais da ideia de GBA obtiveram mais de 57,000 novas sugestões
de drogas [94]. Adicionalmente, diversos grupos dedicaram-se a desenvolver pipelines
eficientes, ferramentas online de busca e aprimorar limitações da metodologia original
[90,95–98]. Com relação a estratégia buscando conexões droga-doença, pesquisas
avançaram em direção a implementar adaptações usando métodos de mineração da
literatura para associar doenças e drogas; e melhorar as listas de genes derivadas de pistas
patológicas, como subgrupos clinicopatológicos, por exemplo [99–102]. Em suma, ambas
as ramificações de adaptações têm grande potencial e são subáreas de intensa pesquisa e
inovação.
24
Figura 7. Esquema simplificado das duas principais estratégias utilizando a abordagem de
25
JUSTIFICATIVA
O adenocarcinoma de pulmão tornou-se o principal subtipo de câncer de pulmão
diagnosticado e está associado com elevada taxa de mortalidade devido ao diagnóstico
tardio e à resistência adquirida no decorrer da terapia. Mesmo com benefícios trazidos
pela medicina personalizada e imunoterapia para subgrupos específicos de pacientes, o
quadro geral não se alterou muito nos últimos anos. Como muitas doenças multifatoriais,
a complexidade associada ao câncer faz dele uma patologia cujas estratégias clássicos de
estudo mostram-se aquém do necessário para satisfazer nossas ambições de pesquisa,
tanto do ponto de vista de investigação dos mecanismos fisiopatológicos quanto de
desenvolvimento de estratégias terapêuticas eficientes, duradouras ou definitivas. Isto se
torna especialmente problemático em cânceres altamente letais e prevalentes, como é o
caso do adenocarcinoma de pulmão. Desta maneira, o emprego de uma perspectiva e
metodologias ajustados para levar em consideração sistemas complexos promete
enriquecer imensamente a pesquisa oncológica e favorecer o potencial de inovação
terapêutica. Deveras, Biologia de Sistemas, tecnologias como a transcriptômica e
metodologias computacionais satisfazem estas condições. Portanto, buscas de
biomarcadores e compostos com potencial para reposicionamento utilizando estas
ferramentas são propostas interessantes e eloquentes de estudar adenocarcinoma
pulmonar sob pressupostos mais aproximados à realidade biológica observada na clínica.
26
OBJETIVOS
O trabalho tem como objetivo identificar, através da prospecção e análise de
repositórios públicos de dados de expressão gênica, os fatores de transcrição que atuam
como reguladores mestres em adenocarcinoma de pulmão para servir de base para estudos
de elucidação de mecanismos básicos da doença, obter alvos promissores
(biomarcadores), e ainda sugerir novas abordagens terapêuticas.
Objetivos específicos:
1. Estabelecer redes moleculares do tecido pulmonar normal, empregando
análise de unidades regulatórias centradas em fatores de transcrição e utilizando
os bancos de dados contendo o perfil transcricional de tecido normal do
repositório público de dados transcriptômicos Gene Expression Omnibus (GEO).
2. Obter assinaturas moleculares baseadas em unidades regulatórias,
identificando os fatores de transcrição agindo como reguladores mestres no
adenocarcinoma pulmonar.
3. Avaliar o potencial prognóstico da atividade de unidades regulatórias dos
reguladores mestres identificados através de análises de sobrevida Cox e curvas
Kaplan-Meier.
4. Desenvolver uma estratégia de reposicionamento computacional de drogas
baseada em redes de unidades regulatórias e aplicá-la na busca de compostos
com potencial terapêutico em adenocarcinoma pulmonar.
27
28
CAPÍTULO I
Este capítulo apresenta o artigo “Master regulators connectivity map: A
transcription factors-centered approach to drug repositioning”, publicado na revista
Frontiers in Pharmacology.
Neste artigo, propusemos uma metodologia de reposicionamento computacional
de drogas baseada na ideia de Mapa de Conectividades e de fatores de transcrição atuando
como reguladores mestres. A proposta é uma adaptação do método CMap original,
utilizando as unidades regulatórias de reguladores mestres como as listas de genes de
interesse. Como um estudo de caso e exemplo de implementação, utilizamos dados de
estudo anterior do grupo e adicionamos mais dados transcricionais obtidas do repositório
público GEO.
fphar-09-00697
June 28, 2018
Time: 19:31
# 1
PERSPECTIVE
published: 02 July 2018
doi: 10.3389/fphar.2018.00697
Edited by:
Andres Trostchansky,
Universidad de la República, Uruguay
Reviewed by:
Ka-Chun Wong,
City University of Hong Kong,
Hong Kong
Rui Benfeitas,
Science for Life Laboratory
(SciLifeLab), Sweden
Alfredo Pulvirenti,
Università degli Studi di Catania, Italy
*Correspondence:
Marco A. De Bastiani
marco.bastiani@ufrgs.br;
tyrev@hotmail.com
Specialty section:
This article was submitted to
Experimental Pharmacology
and Drug Discovery,
a section of the journal
Frontiers in Pharmacology
Received: 23 March 2018
Accepted: 08 June 2018
Published: 02 July 2018
Citation:
De Bastiani MA, Pfaffenseller B and
Klamt F (2018) Master Regulators
Connectivity Map: A Transcription
Factors-Centered Approach to Drug
Repositioning.
Front. Pharmacol. 9:697.
doi: 10.3389/fphar.2018.00697
Master Regulators Connectivity Map:
A Transcription Factors-Centered
Approach to Drug Repositioning
Marco A. De Bastiani
1,2* , Bianca Pfaffenseller
1,3and Fabio Klamt
1,21
Laboratory of Cellular Biochemistry, Department of Biochemistry, Federal University of Rio Grande do Sul, Porto Alegre,
Brazil,
2National Institute of Science and Technology for Translational Medicine, Porto Alegre, Brazil,
3Laboratory of
Molecular Psychiatry, Clinicas Hospital of Porto Alegre, Federal University of Rio Grande do Sul, Porto Alegre, Brazil
Drug discovery is a very expensive and time-consuming endeavor. Fortunately, recent
omics technologies and Systems Biology approaches introduced interesting new
tools to achieve this task, facilitating the repurposing of already known drugs to
new therapeutic assignments using gene expression data and bioinformatics. The
inherent role of transcription factors in gene expression modulation makes them strong
candidates for master regulators of phenotypic transitions. However, transcription
factors expression itself usually does not reflect its activity changes due to
post-transcriptional modifications and other complications. In this aspect, the use of
high-throughput transcriptomic data may be employed to infer transcription
factors-targets interactions and assess their activity through co-expression networks, which
can be further used to search for drugs capable of reverting the gene expression profile
of pathological phenotypes employing the connectivity maps paradigm. Following this
idea, we argue that a module-oriented connectivity map approach using transcription
factors-centered networks would aid the query for new repositioning candidates.
Through a brief case study, we explored this idea in bipolar disorder, retrieving known
drugs used in the usual clinical scenario as well as new candidates with potential
therapeutic application in this disease. Indeed, the results of the case study indicate
just how promising our approach may be to drug repositioning.
Keywords: connectivity map, computational drug repositioning, master regulators, transcription factors, reverse
engineering, systems pharmacology
INTRODUCTION
Customary approaches to drug development focus on identification of a new treatment target,
followed by a search for a compound capable of modulating that target and lastly a validation
process. Additional targets for these drugs are not usually investigated, and other clinical
applications are not frequently explored. However, these extra elements represent an opportunity
for the systematic identification of new indications for existing therapeutics.
The practice of identifying additional therapeutic indications for existing drug compounds,
referred to as drug repositioning or repurposing, has some key benefits over traditional methods
of drug development (
Ashburn and Thor, 2004
;
Chong and Sullivan, 2007
;
Jin and Wong, 2014
).
fphar-09-00697
June 28, 2018
Time: 19:31
# 2
De Bastiani et al.
Master Regulators Connectivity Map
Indeed, the development process for a repositioned drug can be as
short as 3 years, mostly because several steps of the development
pipeline can be eliminated during repurposing efforts (
Dudley
et al., 2011
). Additionally, bioinformatics approaches developed
in the last 10 years represent powerful, fast and cheap
strategies for predicting and choosing new therapeutic indication
candidates for existing medications.
Computational approaches may exploit known links between
diseases and drugs, which can be used to generalize existing
treatments into new clinical contexts. Those diseases–drugs
connections can arise by characterizing drugs according to their
impact on molecular activity, framing them as perturbations to
the biological system. This can identify characteristic signatures
for that compound, which can be used to compare many
medications, resulting in several opportunities to redirect
therapeutic indications between “related” drugs (
Readhead and
Dudley, 2013
). Inserted in this computational approach is an
emerging perspective that the understanding of biology and
the identification of true drivers of pathologies will require the
construction of relevant networks (
Schadt and Bjorkegren, 2012
).
In this context, transcription factors act as drivers of
pathological conditions by modulating overall gene expression.
Hence, assembling networks based on co-expression of
transcription factors and their target genes may help narrowing
down important biological modules unpaired in different
diseases (
Lopez-Kleine et al., 2013
). These gene modules
can offer the opportunity for
in silico screening of drug
compounds by simulating the extended effects a given drug
may impose on the biological system. In fact, we suggest that
gene co-expression networks centered on master regulator
transcription factors may be used to identify promising
candidates for drug repositioning through a module-oriented
adaptation of classical Connectivity Maps. Additionally, we
implement a case study of this proposal in the context of
bipolar disorder, a complex psychiatric disease, in order
to exemplify the potential of this approach for molecules
selection.
MASTER REGULATORS OF
TRANSCRIPTION
Since Susumu Ohno’s first applications of the term “master
regulator” or “master regulatory gene” to describe a gene that
occupies the very top of a regulatory hierarchy, re-definitions of
this concept have emerged to accommodate broader biological
facets. One such extended description positions master regulators
as participants in the specification of cellular lineages by
regulating multiple downstream genes either directly or through
a cascade of gene expression changes, ultimately retaining the
ability to re-specify the fate of cells (
Chan and Kyba, 2013
).
Changes in mRNA profiles are a key feature for phenotype
characterization from a cell type to another during development,
for example. The same rationale may be applied to physiological
to pathological transitions in biological systems. In this context,
gene expression changes are ultimately mediated and regulated
by the activity of transcription factors, which enable a relatively
small number of molecules to generate a large diversity of cell
types and phenotypic states (
Yeh et al., 2013
;
Bhagwat and Vakoc,
2015
;
Reiter et al., 2017
). Indeed, in several biological systems,
such as embryonic stem cells (
Muller et al., 2008
) or glioblastoma
(
Carro et al., 2010
;
Rooj et al., 2016
), it was observed that a
small number of transcription factors act as master regulators that
manage cellular outcome.
In this aspect, previous literature have observed that, given
differential gene expression profiles from two independent
studies, there was virtually no statistical significance in
the overlap between them and these signatures performed
poorly in classifying samples from the other study (
Michiels
et al., 2005
;
Lim et al., 2009
;
Padi and Quackenbush, 2015
).
This observation fits well with the idea of transcription
factors acting as master regulators, supporting an approach
of exploring the controllers of expression profiles, rather than
simply evaluating all differentially expressed genes between
two phenotypes of interest. However, the biological activity
of transcription factors may not be directly correlated with
their expression levels. For that reason, inference of activity
is often assessed through expression modifications of the
transcription factors’ target genes by reverse engineering
methods (
Fletcher et al., 2013
;
Wong et al., 2013
;
Padi and
Quackenbush, 2015
;
Castro et al., 2016
;
Senbabaoglu et al.,
2016
). These approaches can help uncover potentially relevant
regulatory units and biological consequences (Supplementary
Figure S1
).
The application of such view in the search for biological
markers of phenotypic states has provided new insights in many
biomedical investigations, such as cancer (
Fletcher et al., 2013
;
Castro et al., 2016
;
Chen et al., 2016
;
Udyavar et al., 2017
),
diabetes (
Piao et al., 2012
), and bipolar disorder (
Pfaffenseller
et al., 2016
).
SYSTEMS PHARMACOLOGY AND
COMPUTATIONAL DRUG
REPOSITIONING
The usual “one disease, one target, one drug” paradigm of drug
discovery clashes with the novel views of biology, failing to
yield effective medications for many complex conditions such as
cancer and neurodegenerative diseases (
Yildirim et al., 2007
). On
the other hand, a new archetype of drug research has emerged
in recent years, named
Systems Pharmacology. This paradigm
offers an integrated system-level way to drug repurposing or new
drugs identification, and facilitates prediction of effectiveness and
security of compounds during all phases of development (
van
der Graaf and Benson, 2011
;
Zhou et al., 2016
). Additionally, it
exploits a feature of drugs that for many years has been labeled
undesirable: that they often affect more than one molecular
target. In fact, this promiscuity, known as polypharmacology,
seems to be intrinsic to several drugs’ therapeutic efficacy
(
Hopkins, 2009
).
For drug repositioning, the seminal article of Lamb and
collaborators introduced the concept of molecular connectivity
map (CMap) (
Lamb et al., 2006
). The great adherence of the
fphar-09-00697
June 28, 2018
Time: 19:31
# 3
De Bastiani et al.
Master Regulators Connectivity Map
FIGURE 1 | General master regulators connectivity map pipeline. (A) Expression data from high-throughput sources are submitted to reverse engineering inference
algorithms to predict targets of known transcription factors, constituting regulons. (B) Using these regulons, master regulators of pathological phenotypes may be
selected by using different strategies (such as GSEA) and data from case-control studies. (C) In the CMap original proposal, users query lists of genes whose
expression correlates with a biological state of interest and assess their similarity to a reference collection of gene-expression profiles from cultured human cells
treated with 1000s of bioactive small molecules. Here, we propose the use of master regulators’ targets expressions to inquire new drug prospects for repurposing.
(D) The rationale of this connectivity map follows the modulation of the inferred targets of the master regulators transcription factors by the drug candidates.
community toward this new idea can be attributed to its embrace
of the
Systems Biology paradigm, which accepts that biological
elements have several interdependencies and are effectively
connected. In addition, this idea heralds that attempts to defeat
such notion by breaking the elements with a single targeted
intervention are probably ineffective. Hence, they proposed the
need to switch the entire state of the system to a more favorable
one, through modulation of many targets simultaneously (
Lamb,
2007
). Recently, the Library of Integrated Network-based Cellular
Signatures (LINCS) project, funded by the National Institutes
fphar-09-00697
June 28, 2018
Time: 19:31
# 4
De Bastiani et al.
Master Regulators Connectivity Map
FIGURE 2 | Bipolar disease master regulators connectivity map pipeline. (A) Human prefrontal cortex transcriptional network model was computed centered on
transcription factors from a large-scale microarray data obtained from Gene Expression Omnibus (GSE30272) using RTN package ARACNe algorithm with 200
permutations and permutation p-value
< 1e-06 (remaining network reconstruction parameters were kept at default values). (B) Regulons of EGR3, ILF2, MADD,
TSC22D4, and YBX1 were tested using GSEA in three different datasets of case-control (GSE5388, GSE12649, and GSE92538). (C) Samples from these studies
were merged based on their common genes, batch corrected using the sva package and a sub-graph of the regulatory units with more than 100 genes was
created. (D) The inferred TF-target association network of the five selected regulons was extracted and the targets’ logFC direction were inputted as query for the
connectivity map using PharmacoGx package using GSEA method and 1000 permutations. (E) Following the connectivity map propose, the drugs obtained ideally
revert the expression profiles of the pathologically altered regulatory units toward the normal phenotype.
of Health, expanded the original databases of drug perturbation
and enabled the generation of approximately one million gene
expression profiles using the L1000 technology
1(
Ma’ayan et al.,
2014
;
Vempati et al., 2014
;
Li et al., 2016
).
1