Identificação de reguladores mestres em adenocarcinoma de pulmão e sua utilização para a prospecção de compostos antitumorais

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE CIÊNCIAS BÁSICAS DA SAÚDE

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS BIOLÓGICAS:

BIOQUÍMICA

TESE DE DOUTORADO

IDENTIFICAÇÃO DE REGULADORES MESTRES EM ADENOCARCINOMA DE

PULMÃO E SUA UTILIZAÇÃO PARA A PROSPECÇÃO DE COMPOSTOS

ANTITUMORAIS

Marco Antônio De Bastiani

Porto Alegre

2019

(2)

I

IDENTIFICAÇÃO DE REGULADORES MESTRES EM ADENOCARCINOMA DE

PULMÃO E SUA UTILIZAÇÃO PARA A PROSPECÇÃO DE COMPOSTOS

ANTITUMORAIS

Marco Antônio De Bastiani

Tese apresentada ao Programa de

Pós-Graduação

em

Ciências

Biológicas:

Bioquímica do Instituto de Ciências Básicas

da Saúde da Universidade Federal do Rio

Grande do Sul como requisito parcial para a

obtenção do título de doutor em Bioquímica.

Orientador: Prof. Dr. Fábio Klamt

Porto Alegre

2019

(3)

CIP - Catalogação na Publicação

De Bastiani, Marco Antônio

IDENTIFICAÇÃO DE REGULADORES MESTRES EM

ADENOCARCINOMA DE PULMÃO E SUA UTILIZAÇÃO PARA A

PROSPECÇÃO DE COMPOSTOS ANTITUMORAIS / Marco Antônio

De Bastiani. -- 2019.

238 f.

Orientador: Fábio Klamt.

Tese (Doutorado) -- Universidade Federal do Rio

Grande do Sul, Instituto de Ciências Básicas da Saúde,

Programa de Pós-Graduação em Ciências Biológicas:

Bioquímica, Porto Alegre, BR-RS, 2019.

1. Biologia de Sistemas. 2. Câncer de Pulmão. 3.

Bioinformática. 4. Farmacologia de Sistemas. 5.

Reposicionamento Computacional de Drogas. I. Klamt,

Fábio, orient. II. Título.

Elaborada pelo Sistema de Geração Automática de Ficha Catalográfica da UFRGS com os

dados fornecidos pelo(a) autor(a).

(4)

(5)

III

AGRADECIMENTOS

Ao professor Fábio Klamt, por ter aberto as portas do laboratório para mim, pela

orientação, confiança e amizade.

Aos meus colegas de laboratório, foi uma honra e um prazer conhecer vocês e

fazer parte de um grupo tão especial.

À minha família pelo apoio e compreensão, por estar sempre ao meu lado, me

incentivando a sempre buscar meus objetivos e nunca deixar de acreditar em mim.

Ao programa de pós-graduação em Bioquímica por oportunizar a realização desse

doutorado.

(6)

IV

SUMÁRIO

APRESENTAÇÃO ... V

PARTE I ... 1

RESUMO ... 2

ABSTRACT ... 3

LISTA DE ABREVIATURAS ... 4

INTRODUÇÃO ... 5

Epidemiologia do Adenocarcinoma de Pulmão ... 6

Biologia de Sistemas ... 10

Redes Biológicas e Engenharia Reversa de Redes de Expressão Gênica ... 16

Reguladores Mestres ... 20

Reposicionamento Computacional de Drogas ... 22

JUSTIFICATIVA ... 25

OBJETIVOS ... 26

Objetivos específicos: ... 26

PARTE II ... 27

CAPÍTULO I ... 28

CAPÍTULO II ... 42

PARTE III ... 75

DISCUSSÃO ... 76

Conclusão ... 88

Perspectivas ... 89

REFERÊNCIAS ... 91

ANEXOS... 102

Anexo IA ... 103

Anexo IB ... 126

Anexo II ... 225

(7)

V

APRESENTAÇÃO

Essa tese está dividida em três partes, contendo os seguintes itens:

Parte I: Resumo, Resumo em inglês (Abstract), Lista de abreviaturas, Introdução e

Objetivos;

Parte II: Resultados, divididos em dois capítulos, e apresentados na forma de artigos

científicos.

Parte III: Discussão e Referências Bibliográficas.

Essa tese contém ainda a seção Anexos composta artigos científicos publicados

em colaborações durante o período de doutorado.

Este projeto foi realizado no Laboratório de Bioquímica Celular – LBC

(laboratório 24) sob orientação do Prof. Dr. Fábio Klamt, Departamento de Bioquímica

Prof. Tuiskon Dick do Instituto de Ciências Básicas da Saúde, Universidade Federal do

Rio Grande do Sul e

foi financiado pelo Conselho Nacional de Desenvolvimento

Científico e Tecnológico (CNPq) - Instituto Nacional de Ciências e Tecnologia

Translacional em Medicina (INCT-TM #465458/2014-9).

(8)

(9)

2 RESUMO

O câncer de pulmão é uma das neoplasias malignas mais incidentes e letais da

oncologia. Ademais, o adenocarcinoma pulmonar compreende o subtipo histológico mais

comum e cuja frequência tem aumentado em detrimento de outros tipos nos últimos anos,

especialmente em mulheres. Portanto, o entendimento da patofisiologia deste tipo de

câncer e a busca por biomarcadores confiáveis, além de novas abordagens terapêuticas e

regimes de tratamento, constituem áreas importantes de pesquisa e avanço biomédico.

Nas últimas décadas, a Biologia de Sistemas coalesceu e fortaleceu-se com o advento de

tecnologias ômicas e da bioinformática, viabilizando e impulsionando o estudo da

biologia no contexto de sistemas complexos. Desta forma, este trabalho procura utilizar

dados transcriptômicos e estratégias de bioinformática para obter fatores de transcrição

candidatos a reguladores mestre do adenocarcinoma pulmonar, utilizado métodos,

conceitos e visões oriundas da Biologia de Sistemas. Adicionalmente, desenvolvemos

uma metodologia de reposicionamento computacional de drogas e aplicamos esta

estratégia para obter drogas candidatas a elaboração de novos regimes terapêuticos. O

primeiro passo do estudo foi a reconstrução de redes de co-expressão gênica centradas

em fatores de transcrição e seus alvos utilizando informação de tecido não-tumoral, a fim

de estabelecer redes de referência. Posteriormente, os grupos de genes constituídos pelos

fatores de transcrição e seus alvos, conjuntamente chamados de unidades regulatórias,

foram investigados quanto a seus perfis de expressão diferencial utilizando estudos

caso-controle. As unidades regulatórias dos fatores de transcrição enriquecidos de genes

diferencialmente expressos em mais de 80% dos estudos caso-controle, para ambas as

redes de referência, foram consideradas reguladores mestre candidatos da patologia. Esta

estratégia resultou em nove fatores de transcrição – ATOH8, DACH1, EPAS1, ETV5,

FOXA2, FOXM1, HOXA4, SMAD6 e UHRF1. Em seguida, testamos se os estados de

ativação inferidos para estes fatores de transcrição possuíam potencial prognóstico em

diferentes coortes de adenocarcinoma, e observamos que três dos nove mostraram

associações consistentes com o desfecho de pacientes. Finalmente, utilizamos as unidades

regulatórias destes três fatores de transcrição – FOXA2, FOXM1 e UHRF1 – para

prospectar drogas candidatas a reposicionamento, o que resultou em seis compostos

potencialmente capazes de reverter os perfis transcricionais encontrados no contexto

patológico. Estes compostos são: deptropina, promazina, ácido valproico, azaciclonol,

metotrexato e composto ChemBridge ID 5109870. Avaliações dos potenciais terapêuticos

destes fármacos e seus mecanismos de ação neste câncer podem auxiliar no

desenvolvimento de novos tratamentos. Da mesma forma, elucidação dos papéis

biológicos específicos dos nove reguladores mestres também tem grande potencial de

contribuir para o entendimento da biologia do adenocarcinoma de pulmão.

(10)

3 ABSTRACT

Lung cancer is one of the most common and lethal pathologies of medical

oncology. Furthermore, adenocarcinoma comprises the most prevalent lung cancer

histological subtype, which frequency increased over other types in recent years,

especially among women. For these reasons, further understanding about the

pathophysiology of this type of cancer and the search for reliable biomarkers, for new

therapeutic drugs and for improved treatment strategies are all important areas of

biomedical research and development. In recent decades, the Systems Biology paradigm

emerged and strengthened due to novel omic technologies and bioinformatics, enabling

and enhancing the study of biological phenomena in the context of complex systems.

Thus, this study aims to search for the transcription factors acting as master regulators of

lung adenocarcinoma using transcriptomics and employing Systems Biology concepts

and views. Additionally, we developed a computational drug repositioning method and

implemented it to retrieve candidate molecules for new treatment strategies. The first step

in our study involved the reconstruction of co-expression gene networks centered in

transcription factors and their targets using non-tumoral data in order to establish

reference networks. Afterwards, the groups of genes comprising transcription factors and

their targets, collectively called regulatory units, were queried for their differential

expression profiles using case-control studies. Regulatory units of the transcription

factors enriched with differentially expressed genes in over 80% of case-control studies,

for both reference networks, were considered master regulator candidates of the disease.

This strategy retrieved nine transcription factors - ATOH8, DACH1, EPAS1, ETV5,

FOXA2, FOXM1, HOXA4, SMAD6 and UHRF1. Following that, we tested whether the

inferred activities of these master regulators' regulatory units were associated with patient

survival using several cohorts datasets, which highlighted three of them consistently

associated with patient outcome. Finally, the regulatory units of these three transcription

factors - FOXA2, FOXM1 e UHRF1 - were used to query drug candidates for

repositioning in lung adenocarcinoma, resulting in six molecules capable to revert

disease's the transcriptional profile. These drugs were deptropine, promazine, valproic

acid, azacyclonol, methotrexate and ChemBridge ID compound 5109870. The evaluation

of their therapeutic potentials and mechanisms of action in lung cancer may assist the

development of new treatments. Additionally, further investigations of the retrieved

master regulators' roles may lead to improvements in our understanding of

adenocarcinoma pathophysiology.

(11)

4 LISTA DE ABREVIATURAS

CPNPC

Câncer de Pulmão de Não-Pequenas Células

EGFR

Epithelial Growth Factor Receptor

ALK

Anaplastic Lymphoma Kinase

TKI

Inibidores de Tirosina Cinase (Tirosine Kinase Inhibitors)

BN

Rede Bayesianas (Bayesian Networks)

MI

Informação Mútua (Mutual Information)

CMap

Mapa de Conectividade (Connectivity Map)

GSEA

Análise de Enriquecimento de Grupos de Genes (Gene Set Enrichment Analysis)

GEO

Gene Expression Omnibus

HDAC

Histona Deacetilase (Histone Deacetylase)

DNMT1 DNA Metiltransferase 1

ATOH8 Atonal Homolog 8

ETV5

ETS Variant 5

SMAD6 SMAD family member 6

HOXA4 Homeobox A4

UHRF1

Ubiquitin Like with PHD and Ring Finger Domains 1

DACH1 Dachshund Family Transcription Factor 1

EPAS1

Endothelial Periodic Acid-Schiff Domain Protein 1

FOXA2 Forkhead Box A2

FOXM1 Forkhead Box M1

(12)

5 INTRODUÇÃO

O câncer de pulmão é a neoplasia maligna mais insidiosa e agressiva da oncologia,

sendo responsável pelo maior número de mortes relacionadas a câncer no mundo [1].

Assim, a identificação de marcadores e assinaturas moleculares que possam auxiliar no

diagnóstico, prognóstico, ou tratamento constitui uma importante estratégia de estudar e

caracterizar os mecanismos que subjazem esta patologia, abrir caminho para o

desenvolvimento de fármacos e melhorar o manejo dos pacientes acometidos por esta

enfermidade. Por outro lado, esta não é uma tarefa trivial.

Apesar de existirem diversos hallmarks reconhecidamente fundamentais para a

iniciação e desenvolvimento tumoral [2], a complexidade inerente dos sistemas

biológicos impõe diversas dificuldades na pesquisa biomédica, seja ela básica ou clínica.

Diferente de sistemas complicados, cujos diversos elementos apresentam relações bem

definidas de causa e efeito; em sistemas complexos, as relações entre os elementos são

muitas vezes desconhecidas. Desta forma, manifestações de sistemas complexos - como

fenótipos patológicos e comportamento animal, por exemplo - podem apresentar padrões

gerais, porém na maioria das vezes não são inteiramente previsíveis. Evidentemente,

várias características distinguem sistemas complexos de outros tipos de sistemas

organizacionais. Exemplos são a dificuldade de reduzir suas manifestações a

componentes elementares; a necessidade de se considerar as condições locais entre

elementos e grupos de elementos; as interdependências entre elementos e grupos de

elementos; a não-linearidade resultante de todas estas considerações. Por outro lado, isto

também permite que sistemas complexos manifestem propriedades únicas e essenciais

aos organismos vivos, tais como modularidade, robustez e adaptabilidade [3–5].

(13)

6 Desta forma, as seções abaixo almejam elaborar a problemática do câncer de

pulmão sob o paradigma de complexidade, focando no adenocarcinoma pulmonar, além

de introduzir conceitos e ideias importantes para o entendimento da estratégia geral

utilizada para abordar o problema durante esta tese.

Epidemiologia do Adenocarcinoma de Pulmão

Relatórios anuais de estatística oncológica dos últimos anos mostram que o câncer

de pulmão ocupa o segundo lugar nas estimativas de novos casos e primeiro lugar na

estimativa de mortes relacionadas a câncer (Figura 1) [1]. No Brasil, a estatística de

incidência do câncer de pulmão segue os padrões mundiais para homens, porém é menor

em mulheres, segundo dados do Instituto Nacional de Câncer (Figura 2) [6]. Neste

cenário, aproximadamente 95% dos tumores primários de pulmão são carcinomas, cujos

quatro principais tipos histológicos são adenocarcinoma, carcinoma de células

escamosas, carcinoma de células pequenas e carcinoma de células grandes [7].

Historicamente, carcinomas de pulmão foram agrupados em duas grandes classes: câncer

de pulmão de pequenas células e câncer de pulmão de não-pequenas células (CPNPC).

Este grupo inclui adenocarcinomas, carcinomas de células escamosas e de células grandes

[8,9].

(14)

7 Figura 1. Estimativa de novos casos e de mortes para os dez tipos de câncer mais prevalentes

nos Estados Unidos em 2018, por sexo. Adaptado de Siegel et al. [10]

O CPNPC representa cerca de 85% dos casos diagnosticados e, apesar de todos

os esforços, o prognóstico é ruim, com aproximadamente 50% das mortes ocorrendo no

primeiro ano após o diagnóstico e a sobrevida em 5 anos na faixa dos 15%-20%. Um dos

motivos para esta baixa taxa de sobrevivência é o estágio da doença no momento do

diagnóstico. Aproximadamente 70% dos pacientes diagnosticados apresentam a doença

avançada ou com metástases (estágios III/IV), o que torna as opções de tratamento

bastante reduzidas [9,11]. Cirurgia, radiação, quimioterapia, terapia alvo e imunoterapia

são as estratégias terapêuticas utilizadas e a escolha depende grandemente do estágio da

doença. Cirurgia é o tratamento de preferência para estágios I e II, sendo curativa em boa

parte dos casos. Quimioterapia e radiação são utilizadas de forma adjuvante pós-cirurgia,

(15)

8 particularmente em estágios II e IIIA, e para o controle da patologia em estágios mais

avançados. Entre os fármacos mais utilizados encontram-se a cisplatina, carboplatina,

docetaxel, gemcitabine, paclitaxel, vinorelbina e pemetrexato. Terapias alvo para

marcadores como EGFR e ALK são utilizadas para pacientes apresentando mutações

nestas proteínas. Finalmente, a imunoterapia surgiu recentemente como uma alternativa

interessante, particularmente na forma de anticorpos contra PD-1, uma proteína que

prejudica a habilidade de células imune combater o tumor [12,13]. Outro fator

determinante para justificar as elevadas taxas de mortalidade no câncer de pulmão é a

ocorrência de resistência à quimioterapia [14]. Em contrapartida, tumores detectados em

momentos iniciais apresentam prognóstico bastante favorável, com sobrevida média em

5 anos maior de 70% para estágio I [15].

Figura 2. Distribuição proporcional dos dez tipos de câncer mais incidentes no Brasil, estimados

para 2018 por sexo, exceto pele não melanoma. Adaptado do relatório INCA [6].

Tabagismo é o fator de risco mais expressivo para o desenvolvimento de câncer

de pulmão e a ele é atribuído os grandes índices desta enfermidade durante o final do

século XX até recentemente. Esforços mundiais para reduzir o consumo de tabaco,

iniciados nas décadas de 60 e 70, auxiliaram significativamente para recentes reduções

das taxas de incidência, especialmente em homens [1,10,16]. Por outro lado, nas últimas

(16)

9 décadas, a incidência de adenocarcinoma aumentou constantemente em detrimento de

outros tipos histológicos, de forma que hoje ele representa a maior parte dos carcinomas

de pulmão diagnosticados nos Estados Unidos, Europa e Ásia. Este aumento é

especialmente alarmante entre mulheres não-fumantes [17]. Diferenças históricas na

adoção de hábitos tabagistas são sugeridas para explicar atuais atrasos nas diminuições

nas taxas de incidência de câncer de pulmão em mulheres. Contudo, cerca de 53% das

mulheres que desenvolvem CPNPC nunca fumaram enquanto apenas 15% de homens que

desenvolvem este câncer nunca fumaram. Com efeito, muitas observações na literatura

sugerem a influência do estrogênio como um fator de risco adicional para o

desenvolvimento de adenocarcinoma pulmonar [18,19].

Assim, a elevada letalidade, o diagnóstico tardio, a resistência à quimioterapia, os

fatores de risco não associados ao tabagismo, todas essas razões justificam a grande

necessidade de biomarcadores preditivos e/ou prognósticos confiáveis e precisos para o

adenocarcinoma pulmonar. Um biomarcador é definido como características que possam

ser objetivamente medidas e avaliadas como um indicador de processos fisiológicos,

patológicos ou resposta farmacológica a intervenções específicas. Biomarcadores

prognósticos fornecem informações sobre o desfecho geral do indivíduo,

independentemente de terapia, e a presença ou ausência deste tipo de marcador pode ser

útil para seleção de subpopulações de pacientes com diferentes características patológicas

ou clínicas, mas não para predizer resposta a tratamento. Biomarcadores com potencial

preditivo oferecem informações sobre o efeito de intervenções terapêuticas em pacientes,

auxiliando no monitoramento durante o tratamento [20]. Deveras, grande parte da

pesquisa oncológica nas últimas décadas foca na obtenção destes indicadores [21]. Uns

dos resultados foi identificação de marcadores de grande sucesso no CPNPC, como

EGFR (epithelial growth factor receptor), ALK (anaplastic lymphoma kinase) e outros.

(17)

10 Tais avanços, por conseguinte, favoreceram o desenvolvimento de terapias direcionadas

baseadas em inibidores de tirosina cinase (tirosine kinase inhibitors – TKI), amplamente

utilizados na clínica atual. Contudo, diretrizes atuais recomendam a avaliação de perfis

moleculares utilizando diversos indicadores simultaneamente, a fim de caracterizar mais

detalhadamente e individualmente a patologia de cada paciente e assim auxiliar a decisão

terapêutica [8,22].

Biologia de Sistemas

Uma das maiores implicações do Projeto Genoma Humano foi o melhoramento

da nossa habilidade de caracterizar perturbações sistemicamente, usando técnicas de larga

escala, levando à evolução de outras ferramentas ômicas (transcriptômica, proteômica,

metabolômica, etc.) em complemento à genômica. Consequentemente, elas se tornaram

os métodos de escolha para a avaliação rápida, sistêmica e eficiente das propriedades e

dinâmicas de processos biológicos em amostras oriundas de ensaios celulares, de modelos

animais pré-clínicos e estudos humanos. Simultaneamente, a Biologia de Sistemas

coalesceu e fortaleceu-se com o desenvolvimento destas tecnologias nos últimos 30 anos.

Porém, esta ideia já pairava desde os anos 50 e 60 entre matemáticos e teoristas de

sistemas como Norbert Wiener, Ludwig von Bertalanffy e Mihajlo Mesarovic, os quais

perceberam que sistemas complexos não podem ser facilmente “reduzidos” ou explicados

por leis determinísticas simples [23].

O termo “Biologia de Sistemas” foi cunhado por Mihajlo Mesarovic em 1968 para

descrever uma abordagem multidisciplinar e sistêmica para o estudo da biologia. Estudar

biologia sob um paradigma sistêmico requer uma revisão da estratégia de investigação.

Enquanto o entendimento dos genes e proteínas continua importante, o foco é o

entendimento das estruturas e dinâmicas do sistema. Estruturas sistêmicas incluem redes

(18)

11 de interação molecular e vias metabólicas, bem como os mecanismos pelos quais estas

interações modulam as propriedades funcionais de estruturas intracelulares e

multicelulares. Dinâmicas sistêmicas avaliam como sistemas comportam-se com o passar

do tempo, ou sob várias condições e perturbações. De fato, a teoria de sistemas, a partir

da qual a Biologia de Sistemas deriva, compreende que os elementos individuais são

determinantes muito menos importantes para o comportamento do sistema quando

comparados com a interação entre eles [24–26].

Figura 3. Esquema da pirâmide de complexidade biológica ilustrando o fluxo de informação e

complexidade dos elementos fundamentais dos sistemas biológicos. Adaptado de Oltvai and

Barabási [27]

Outra consideração importante durante o estudo da biologia sob a perspectiva da

Biologia de Sistemas é a presença e influência dos diferentes níveis hierárquicos de

organização e funcionalidade biológicos (Figura 3) [27,28]. A existência de níveis

hierárquicos implica que os componentes do sistema estão restritos a cooperarem para

(19)

12 atingir estados homeostáticos estáveis [29–31]. O desafio é perceber que cada nível da

hierarquia de informação na cadeia DNA  RNA  proteína  interações proteicas 

vias metabólicas  redes de interação  células  tecidos  organismo  populações

 ecologias corresponde a subestruturas da complexidade biológica. Ademais, cada

elemento desta cadeia apresenta os atributos que caracterizam sistemas complexos, e tem

a capacidade influenciar outros níveis. Por certo, nenhuma correspondência simples pode

ser feita entre os diversos níveis hierárquicos, o que levou à revisão e reelaboração de

diversos paradigmas clássicos. Por exemplo, a função de genes, sob esta perspectiva, está

distribuída ao longo das conexões dinâmicas não-lineares que seus produtos assumem e

da estocasticidade da expressão gênica em nível celular, o que permite a interpretação de

observações experimentais e modelos que outrora pareceriam inexplicáveis e mitiga o

caráter determinístico antigamente consignado ao gene [32–34].

Os arranjos biológicos apresentam muitas propriedades que não podem ser

antecipadas simplesmente pelo estudo detalhado de seus componentes individuais. Estas

características intrínsecas são referidas como propriedades emergentes [29,35]. A

estocasticidade da expressão gênica, primeiramente proposta por Kupiec, é um exemplo

de dinâmica não-linear de sistemas complexos [36,37]. Similarmente, interações

proteicas também apresentam estocasticidade e dependem grandemente das condições

bioquímicas e biofísicas do microambiente em que se encontram [38]. O termo “dinâmica

não-linear” refere-se, simplificadamente, a mudanças cujas entidades (quantidades,

intensidades, efeitos) não escalam em conjunto com suas causas. Em outras palavras,

relações de proporcionalidade distorcem-se quando a magnitude das variáveis atinge

limites específicos. Um sistema move-se de um regime linear para um não-linear quando

um ou mais parâmetros sofrem flutuações acima de um limite crítico, levando a um ponto

de bifurcação. Estes pontos são caracterizados por quebras de simetria, permitindo ao

(20)

13 sistema “escolher” entre diversos destinos e adquirir características distintas. As quebras

de simetria conferem diferentes soluções para os mesmos valores de parâmetros e

atribuem irreversibilidade ao sistema, posicionando-o, portanto, em uma escala temporal.

Isto permite que o sistema evolua em direção à novidade e à variabilidade, conferindo a

ele uma "história", na qual sua evolução dependerá das “escolhas” tomadas nos pontos

de quebra de simetria [39,40].

Outras propriedades emergentes importantes são a robustez, a adaptabilidade e a

modularidade. A robustez refere-se à habilidade de um sistema manter suas funções

básicas mesmo na presença de perturbações. A adaptabilidade, por sua vez, assegura ao

circuito os meios de garantir a robustez, seja por intermédio de novas interações entre

elementos que anteriormente não interagiam, seja pela modificação de interações já

existentes, seja pela mudança dos níveis ou intensidades de interações funcionais, etc.

Finalmente, a modularidade é um mecanismo eficaz para conter a propagação de

perturbações prejudiciais, confinando-as localmente, evitando danos ao arranjo como um

todo e também assegurando robustez. Em organismos multicelulares, a célula é um

exemplo marcante de modularidade [41–44].

Além das mudanças de perspectiva, a imensa quantidade de informação

disponibilizada pelas tecnologias high-throughput também impulsionou o surgimento de

vários tipos de bancos de dados ômicos. Afinal, mesmo que pesquisadores individuais

consigam arrecadar uma grande quantidade de dados, nenhum investigador sozinho é

capaz de interpretar ou conhecer toda a complexidade que subjaz determinado fenômeno

ou conjunto de fenômenos biológicos. A Tabela 1 mostra alguns dos bancos online de

informações ômicas disponíveis atualmente.

(21)

14 Abordagem de

Origem

Nome

URL

Descrição

Genômica

NCBI

http://www.ncbi.nlm.nih.gov

Banco de dados e

ferramenta de pesquisa

de experimentos

genômicos,

epigenômicos e

transcriptômicos

GWAS Catalog

http://www.genome.gov/gwastudie

s/

Catálogo de estudos de

associação gênica

(Gene-Wide Association Study)

Transcriptômica

ArrayExpress

http://www.ebi.ac.uk/arrayexpress/

Banco de dados de

experimentos de

genômica funcional.

Inclui expressão gênica a

partir de estudos de

microarranjo e

sequenciamento.

GEO

http://www.ncbi.nlm.nih.gov/geo/

Repositório público de

microarranjos,

sequenciamento e outras

formas de dados de

genômica funcional.

miRBase

http://www.mirbase.org

Banco de dados de

sequências e anotações

de miRNA publicados.

Proteômica

Human Protein

Reference Databas

http://www.hprd.org

Plataforma de

visualização e integração

de informações

proteômicas.

PRoteomics

IDEntifications

(PRIDE)

http://www.ebi.ac.uk/pride/

Repositório público de

dados proteômicos,

incluindo identificação

de proteínas, peptídeos e

modificações

pós-traducionais.

UniProt

http://www.uniprot.org

Banco de dados de

função e anotação

proteica.

Fosfoproteômica

PhsophoSitePlus

http://www.phosphosite.org/

Fonte curada

manualmente de dados

experimentais de

modificações

pós-traducionais.

Phosph.ELM

http://phospho.elm.eu.org/

Banco de dados de sítios

de fosforilação.

PTMcode

http://ptmcode.embl.de

Fonte de associações

conhecidas e preditas

entre modificações

pós-traducioanis de proteínas.

Metabolômica

Human Metabolome

Database

http://www.hmdb.ca

Banco de dados de

anotação de matabólitos

detectados em fluidos

biológicos e tecidos.

(22)

15 Bancos de Dados

de Interação

Proteica

BioGRID

http://thebiogrid.org

Banco de dados de

interações proteicas.

Database of

Interacting Proteins

http://dip.doe-mbi.ucla.edu/dip/

Banco de dados de

interações proteicas

observadas

experimentalmente.

STRING

http://string.embl.de

Banco de dados de

interações proteicas

conhecidas e preditas.

CORUM

http://mips.helmholtz-

_{muenchen.de/genre/proj/corum}

Fonte de anotações de

complexos proteicos

manualmente curadas.

PCDq

http://h-invitational.jp/hinv/pcdq/

Banco de dados de

anotações de interações

proteicas humanas.

Bancos de Dados

de Vias

KEGG

http://www.genome.jp/kegg/

Banco de dados de

mapas metabólicos, vias

e doenças.

NCI Pathway

Interaction Database

http://pid.nci.nih.gov

Coleção de vias humanas

curadas manualmente.

REACTOME

http://www.reactome.org/

Banco de dados de vias

curado e revisado

manualmente.

Adaptado de Berg et al. [45]

Nesta tese, foram utilizados dados transcriptômicos para abordar a problemática

do adenocarcinoma pulmonar sob uma perspectiva sistêmica. A transcriptômica fornece

informação sobre RNA mensageiros transcritos por uma célula ou tecido de interesse.

Microarranjo de DNA foi um dos métodos inicialmente desenvolvidos, justificando a

grande quantidade de dados disponíveis nos repositórios online utilizando-o. Contudo,

novas tecnologias de detecção transcricional utilizando sequenciamento, como RNA-seq,

ganharam grade adesão da comunidade científica nos últimos 10 anos por oferecem

benefícios singulares; tais como não necessitar de conhecimento prévio sobre a sequência

do transcrito, facilitar a identificação de eventos de edição transcricional, permitir o

estudo de sequências não-codificantes, possuir maior resolução e acurácia (Figura 4) [46–

48]. Por outro lado, a informação transcricional nem sempre se corresponde com os níveis

proteicos e por isso é preciso cautela na interpretação e formulação de modelos ou

(23)

16 estratégias experimentais utilizando este tipo de dado. Não obstante, estudos biomédicos

utilizando transcriptômica são úteis para a identificação de vias e módulos funcionais

ativos ou modificados em um sistema ao longo do tempo, ou sob perturbações controladas

ou em condições patológicas.

Figura 4. Sumário simplificado das diferenças entre as duas tecnologias transcriptômicas mais

utilizadas.

Redes Biológicas e Engenharia Reversa de Redes de Expressão Gênica

Redes de interação são aspectos fundamentais da estrutura organizacional de

sistemas complexos e muito da pesquisa em Biologia de Sistemas foca em redes

biológicas para explicar fenômenos patológicos e fisiológicos. De tal modo, as

(24)

17 conectividades intracelulares e intercelulares implicam que a influência de uma

anormalidade específica não ficará restrita ao elemento defeituoso. Ela poderá

propagar-se para os interatores deste elemento alterado e prejudicar a função de um elemento

não-defeituoso. Na verdade, doenças emergem quando perturbações em componentes de redes

moleculares culminam na incapacidade de manter os intrincados mecanismos

responsáveis por sustentar a homeostasia do organismo num estado "saudável", forçando

o sistema a assumir estados homeostáticos diferentes, porém similarmente favoráveis, na

topologia fase-espaço de arranjos termodinamicamente possíveis [41,49,50]. Portanto,

doenças são raramente consequências de anormalidades em um único gene ou produto

gênico. Elas são usualmente processos de muitas etapas, com muitos protagonistas, e no

qual muitas vezes a interação entre estes protagonistas nas diferentes etapas irá direcionar

o destino do sistema para o fenótipo patológico. Estes princípios e as ferramentas e

métodos que derivam deles impulsionaram subáreas específicas da Biologia de Sistemas,

tais como Biologia de Redes e Medicina de Redes.

A estrutura básica de qualquer tipo de rede contém nodos (ou vértices) e

conectores (ou arestas). Entretanto, uma importante característica sobre redes de sistemas

complexos é que elas não são aleatórias, mas sim seguem diretrizes básicas de

organização e desenvolvimento [51]. Estas diretrizes ou princípios organizacionais

permitem o desenvolvimento das propriedades emergentes observadas nestes sistemas,

como a modularidade, por exemplo (Figura 5). A maioria das redes biológicas apresenta

graus elevados de agrupamento entre conjuntos de nodos, caracterizando topologias

modulares contendo alta interconectividade [52,53]. Outra propriedade é a

desproporcionalidade de conexões entre os vértices, levando a redes livres de escala, em

que uma proporção restrita de elementos apresenta uma quantidade relativamente maior

de associações do que a média do restante dos nodos. Estes vértices são conhecidos como

(25)

18 hubs [51,54]. Finalmente, outro aspecto é a

propriedade de mundo pequeno (small world

proprerty), implicando que a perturbação de

um nodo pode afetar a atividade dos seus

interatores, bem como o comportamento da

rede inteira [55].

Deste modo, redes de interação gênica

permitem-nos identificar moléculas ou grupos

de elementos potencialmente importantes para

o desenvolvimento e controle da patologia.

Estes elementos ou seus módulos são

candidatos promissores a biomarcadores e

também podem fornecer insights para o

desenvolvimento de terapias [56,57]. Uma

estratégia bastante utilizada para caracterizar

redes de interação gênica é chamada

engenharia reversa, um processo no qual redes

são

reconstruídas

a

partir

de

dados

experimentais high-throughput. Em modelos

derivados de engenharia reversa de redes

biológicas, os nodos representam componentes

dinâmicos encontrados nos organismos vivos

(como genes, proteínas, metabólitos, etc.) e as

arestas indicam alguma associação observada

entre os elementos utilizados [58,59].

Figura 5. Exemplos esquemáticos de

estruturas de redes de sistemas

complexos. (A) Configuração de uma

rede livre de escala, com elementos

altamente conectados chamados hubs

(círculos azuis) e sem módulos. (B)

Esquema ilustrativo de rede com quatro

módulos interconectados entre si e sem

hubs. (C) Rede hierárquica com

modularidade. Adaptado de Ravaz et al.

[52].

(26)

19 Duas principais metodologias lideram o campo da engenharia reversa de redes de

expressão gênica. A primeira emprega redes Bayesianas (BN - Bayesian Networks), uma

classe de modelos gráficos probabilísticos que representa a distribuição de probabilidade

conjunta multivariada como grafos acíclicos direcionados. Nestas redes, nodos

correspondem a genes e arestas correspondem a dependências tipo pais-filhos. Estes

modelos assumem que genes são condicionalmente independentes de seus

não-descendentes, dado seus pais (pressuposto de Markov). Computacionalmente, as BN são

calculadas utilizando funções de ranque para avaliar a probabilidade de conjuntos

possíveis de redes, dada a expressão conhecida, e selecionar as mais prováveis. Uma

limitação importante de BN encontra-se no pressuposto de Markov. Isto significa que um

gene X pode ser modulado por seus reguladores upstream (pais), mas não por seus

elementos downstream (filhos), o que pode não ser o caso em muitas situações biológicas,

tipo alças de retroalimentação [59–64].

O segundo método de reconstrução de redes amplamente utilizado é baseado em

informação mútua (MI – mutual information), um conceito extraído de teoria de

informação e que também é capaz de capturar associações entre genes através de

dependências estatísticas. Na verdade, esta é a abordagem mais bem-sucedida e verificada

experimentalmente. A definição de MI requer o pressuposto de que existem

independências estatísticas entre os níveis de expressão de genes, o que permite a

inferência se subgrupos de associações verdadeiras. Contudo, genes separados por

associações indiretas podem co-expressar em conjunto sem que exista uma relação

biológica funcional, resultando em falsos positivos. Para amenizar este viés, uma

estratégia utilizada emprega outro conceito de teoria de informação conhecida como data

(27)

20 Reguladores Mestres

Mudanças em perfis de expressão gênica são etapas fundamentais no processo de

especificação fenotípica em contextos fisiológicos e o mesmo vale em transições para

estados patológicos. As modulações destas etapas de mudança transcricional são

mediadas em grande parte por fatores de transcrição. Esta característica permite que um

número relativamente pequeno de moléculas produza uma diversidade comparativamente

muito maior de estados fenotípicos. De fato, em diversos contextos biológicos, como em

células embrionárias ou câncer por exemplo, pode-se observar que um número

relativamente pequeno de fatores de transcrição são importantes atores da regulação

transcricional até diferentes desfechos celulares [34,67–71]. Por isso, fatores de

transcrição estão em uma posição privilegiada para atuarem como reguladores mestres da

transcrição gênica.

As primeiras aplicações do termo “regulador mestre” foram utilizadas para

descrever moléculas ocupando o topo da hierarquia transcricional, fora da influência

regulatória de outros genes. Contudo, redefinições deste conceito evoluíram para

acomodar visões mais abranges da realidade biológica observada. Uma destas evoluções

conceituais contempla que reguladores mestres são os líderes da especificação de

linhagens celulares por modular diversos genes direta ou indiretamente através de

cascatas de mudanças de expressão gênica, ultimamente retendo a capacidade de

redirecionar o desfecho celular. Nesta articulação, o potencial de especificação de

linhagens é essencial, pois implica que estes reguladores tem a capacidade de reter

plasticidade fenotípica e “impor” alterações durante e mesmo depois de atingir um destino

celular qualquer (Figura 6) [72,73].

(28)

21 Figura 6. Esquema teórico do potencial de especificação de linhagens celulares para fatores de

transcrição atuando como reguladores mestres da expressão gênica. O balanço e intensidade

de expressão de dois reguladores mestres determinam diferentes desfechos fenotípicos da

célula, ainda retendo plasticidade para adotar outros estados conforme modificações na

dinâmica de expressão de ambos.

A busca de reguladores mestres como biomarcadores moleculares de patologias

mostrou resultados interessantes em diversas áreas da pesquisa biomédica. Na

imunologia, por exemplo, Lefebvre e colaboradores encontraram e validaram MYB e

FOXM1 como reguladores mestres da resposta imune mediada por antígeno [74]. Piao e

colaboradores propuseram 5 reguladores mestres para diabetes tipo 2 e seus respectivos

alvos transcricionais [75]. Finalmente, a busca de reguladores mestres de cânceres

(29)

22 também é bastante promissora, com resultados importantes em gliblastoma e câncer de

mama [70,76–79].

Reposicionamento Computacional de Drogas

A Biologia de Sistemas, dados high-throughput e bioinformática também

favoreceram a adoção de uma nova visão em conceitos, pesquisas e abordagens

farmacológicas para o tratamento de diversas doenças. Desta maneira, surgiu a

Farmacologia de Sistemas, utilizando diversos princípios sistêmicos para a descoberta e

o reposicionamento de fármacos [45,80–84]. O reposicionamento de drogas é a prática

de utilizar compostos já conhecidos e utilizados para determinada doença em outros

contextos patológicos. Neste campo, a estratégia de Mapas de Conectividade (connectiviy

map – CMap) revolucionou a maneira como se busca drogas candidatas para

reposicionamento. Na descrição original desta abordagem, os autores utilizaram análise

de enriquecimento de grupos de genes (Gene Set Enrichment Analysis – GSEA), na qual

se testam listas de genes cujas expressões correlacionam-se a estados biológicos de

interesse e avalia-se suas similaridades com uma coleção de perfis de expressão gênica

de referência obtida de culturas celulares tratadas com centenas ou milhares de moléculas

bioativas. O resultado é uma lista de compostos com uma métrica de conectividade, na

qual valores negativos associam-se com reversão do perfil de expressão do estado

biológico de interesse testado e valores positivos associam-se com perfis de expressão

similares ao estado biológico testado [85–88].

Muitos estudos foram conduzidos com o intuito de refinar e aumentar o potencial

do CMap desde sua concepção, buscando novas e melhores métricas ou modificações no

fluxo de trabalho original [89–92]. Estas adaptações podem ser subdivididas em duas

grandes categorias: abordagens tentando identificar conexões droga-doença ou inferir

(30)

23 conexões droga-droga (Figura 6). A primeira assume que se uma assinatura gênica

representando a resposta de um fármaco utilizado na clínica é negativamente

correlacionada com o perfil de expressão da doença, então esta droga pode ser utilizada

para reverter a assinatura molecular da patologia, tornando-se uma candidata para

reposição. A segunda classe de modificações metodológicas incorpora o conceito de

“culpa-por-associação” (guilt-by-association – GBA), em que se dois compostos

produzem assinaturas gênicas similares, então eles compartilham modos de ação comuns,

mesmo se agirem em diferentes alvos intracelulares; neste caso, o primeira composto

poderia ser reposicionado para tratar condições em que o segundo é utilizada e vice-versa

[93].

Aplicações iniciais da ideia de GBA obtiveram mais de 57,000 novas sugestões

de drogas [94]. Adicionalmente, diversos grupos dedicaram-se a desenvolver pipelines

eficientes, ferramentas online de busca e aprimorar limitações da metodologia original

[90,95–98]. Com relação a estratégia buscando conexões droga-doença, pesquisas

avançaram em direção a implementar adaptações usando métodos de mineração da

literatura para associar doenças e drogas; e melhorar as listas de genes derivadas de pistas

patológicas, como subgrupos clinicopatológicos, por exemplo [99–102]. Em suma, ambas

as ramificações de adaptações têm grande potencial e são subáreas de intensa pesquisa e

inovação.

(31)

24 Figura 7. Esquema simplificado das duas principais estratégias utilizando a abordagem de

(32)

25 JUSTIFICATIVA

O adenocarcinoma de pulmão tornou-se o principal subtipo de câncer de pulmão

diagnosticado e está associado com elevada taxa de mortalidade devido ao diagnóstico

tardio e à resistência adquirida no decorrer da terapia. Mesmo com benefícios trazidos

pela medicina personalizada e imunoterapia para subgrupos específicos de pacientes, o

quadro geral não se alterou muito nos últimos anos. Como muitas doenças multifatoriais,

a complexidade associada ao câncer faz dele uma patologia cujas estratégias clássicos de

estudo mostram-se aquém do necessário para satisfazer nossas ambições de pesquisa,

tanto do ponto de vista de investigação dos mecanismos fisiopatológicos quanto de

desenvolvimento de estratégias terapêuticas eficientes, duradouras ou definitivas. Isto se

torna especialmente problemático em cânceres altamente letais e prevalentes, como é o

caso do adenocarcinoma de pulmão. Desta maneira, o emprego de uma perspectiva e

metodologias ajustados para levar em consideração sistemas complexos promete

enriquecer imensamente a pesquisa oncológica e favorecer o potencial de inovação

terapêutica. Deveras, Biologia de Sistemas, tecnologias como a transcriptômica e

metodologias computacionais satisfazem estas condições. Portanto, buscas de

biomarcadores e compostos com potencial para reposicionamento utilizando estas

ferramentas são propostas interessantes e eloquentes de estudar adenocarcinoma

pulmonar sob pressupostos mais aproximados à realidade biológica observada na clínica.

(33)

26 OBJETIVOS

O trabalho tem como objetivo identificar, através da prospecção e análise de

repositórios públicos de dados de expressão gênica, os fatores de transcrição que atuam

como reguladores mestres em adenocarcinoma de pulmão para servir de base para estudos

de elucidação de mecanismos básicos da doença, obter alvos promissores

(biomarcadores), e ainda sugerir novas abordagens terapêuticas.

Objetivos específicos:

1. Estabelecer redes moleculares do tecido pulmonar normal, empregando

análise de unidades regulatórias centradas em fatores de transcrição e utilizando

os bancos de dados contendo o perfil transcricional de tecido normal do

repositório público de dados transcriptômicos Gene Expression Omnibus (GEO).

2. Obter assinaturas moleculares baseadas em unidades regulatórias,

identificando os fatores de transcrição agindo como reguladores mestres no

adenocarcinoma pulmonar.

3. Avaliar o potencial prognóstico da atividade de unidades regulatórias dos

reguladores mestres identificados através de análises de sobrevida Cox e curvas

Kaplan-Meier.

4. Desenvolver uma estratégia de reposicionamento computacional de drogas

baseada em redes de unidades regulatórias e aplicá-la na busca de compostos

com potencial terapêutico em adenocarcinoma pulmonar.

(34)

27

(35)

28 CAPÍTULO I

Este capítulo apresenta o artigo “Master regulators connectivity map: A

transcription factors-centered approach to drug repositioning”, publicado na revista

Frontiers in Pharmacology.

Neste artigo, propusemos uma metodologia de reposicionamento computacional

de drogas baseada na ideia de Mapa de Conectividades e de fatores de transcrição atuando

como reguladores mestres. A proposta é uma adaptação do método CMap original,

utilizando as unidades regulatórias de reguladores mestres como as listas de genes de

interesse. Como um estudo de caso e exemplo de implementação, utilizamos dados de

estudo anterior do grupo e adicionamos mais dados transcricionais obtidas do repositório

público GEO.

(36)

fphar-09-00697

June 28, 2018

Time: 19:31

# 1

PERSPECTIVE

published: 02 July 2018

doi: 10.3389/fphar.2018.00697

Edited by:

Andres Trostchansky,

Universidad de la República, Uruguay

Reviewed by:

Ka-Chun Wong,

City University of Hong Kong,

Hong Kong

Rui Benfeitas,

Science for Life Laboratory

(SciLifeLab), Sweden

Alfredo Pulvirenti,

Università degli Studi di Catania, Italy

*Correspondence:

Marco A. De Bastiani

marco.bastiani@ufrgs.br;

tyrev@hotmail.com

Specialty section:

This article was submitted to

Experimental Pharmacology

and Drug Discovery,

a section of the journal

Frontiers in Pharmacology

Received: 23 March 2018

Accepted: 08 June 2018

Published: 02 July 2018

Citation:

De Bastiani MA, Pfaffenseller B and

Klamt F (2018) Master Regulators

Connectivity Map: A Transcription

Factors-Centered Approach to Drug

Repositioning.

Front. Pharmacol. 9:697.

doi: 10.3389/fphar.2018.00697

Master Regulators Connectivity Map:

A Transcription Factors-Centered

Approach to Drug Repositioning

Marco A. De Bastiani

1,2

_{* , Bianca Pfaffenseller}

1,3

_{and Fabio Klamt}

1,2

1

_{Laboratory of Cellular Biochemistry, Department of Biochemistry, Federal University of Rio Grande do Sul, Porto Alegre,}

Brazil,

2

_{National Institute of Science and Technology for Translational Medicine, Porto Alegre, Brazil,}

3

_{Laboratory of}

Molecular Psychiatry, Clinicas Hospital of Porto Alegre, Federal University of Rio Grande do Sul, Porto Alegre, Brazil

Drug discovery is a very expensive and time-consuming endeavor. Fortunately, recent

omics technologies and Systems Biology approaches introduced interesting new

tools to achieve this task, facilitating the repurposing of already known drugs to

new therapeutic assignments using gene expression data and bioinformatics. The

inherent role of transcription factors in gene expression modulation makes them strong

candidates for master regulators of phenotypic transitions. However, transcription

factors expression itself usually does not reflect its activity changes due to

post-transcriptional modifications and other complications. In this aspect, the use of

high-throughput transcriptomic data may be employed to infer transcription

factors-targets interactions and assess their activity through co-expression networks, which

can be further used to search for drugs capable of reverting the gene expression profile

of pathological phenotypes employing the connectivity maps paradigm. Following this

idea, we argue that a module-oriented connectivity map approach using transcription

factors-centered networks would aid the query for new repositioning candidates.

Through a brief case study, we explored this idea in bipolar disorder, retrieving known

drugs used in the usual clinical scenario as well as new candidates with potential

therapeutic application in this disease. Indeed, the results of the case study indicate

just how promising our approach may be to drug repositioning.

Keywords: connectivity map, computational drug repositioning, master regulators, transcription factors, reverse

engineering, systems pharmacology

INTRODUCTION

Customary approaches to drug development focus on identification of a new treatment target,

followed by a search for a compound capable of modulating that target and lastly a validation

process. Additional targets for these drugs are not usually investigated, and other clinical

applications are not frequently explored. However, these extra elements represent an opportunity

for the systematic identification of new indications for existing therapeutics.

The practice of identifying additional therapeutic indications for existing drug compounds,

referred to as drug repositioning or repurposing, has some key benefits over traditional methods

of drug development (

Ashburn and Thor, 2004

;

Chong and Sullivan, 2007

;

Jin and Wong, 2014

).

(37)

fphar-09-00697

June 28, 2018

Time: 19:31

# 2

De Bastiani et al.

Master Regulators Connectivity Map

Indeed, the development process for a repositioned drug can be as

short as 3 years, mostly because several steps of the development

pipeline can be eliminated during repurposing efforts (

Dudley

et al., 2011

). Additionally, bioinformatics approaches developed

in the last 10 years represent powerful, fast and cheap

strategies for predicting and choosing new therapeutic indication

candidates for existing medications.

Computational approaches may exploit known links between

diseases and drugs, which can be used to generalize existing

treatments into new clinical contexts. Those diseases–drugs

connections can arise by characterizing drugs according to their

impact on molecular activity, framing them as perturbations to

the biological system. This can identify characteristic signatures

for that compound, which can be used to compare many

medications, resulting in several opportunities to redirect

therapeutic indications between “related” drugs (

Readhead and

Dudley, 2013

). Inserted in this computational approach is an

emerging perspective that the understanding of biology and

the identification of true drivers of pathologies will require the

construction of relevant networks (

Schadt and Bjorkegren, 2012

).

In this context, transcription factors act as drivers of

pathological conditions by modulating overall gene expression.

Hence, assembling networks based on co-expression of

transcription factors and their target genes may help narrowing

down important biological modules unpaired in different

diseases (

Lopez-Kleine et al., 2013

). These gene modules

can offer the opportunity for

in silico screening of drug

compounds by simulating the extended effects a given drug

may impose on the biological system. In fact, we suggest that

gene co-expression networks centered on master regulator

transcription factors may be used to identify promising

candidates for drug repositioning through a module-oriented

adaptation of classical Connectivity Maps. Additionally, we

implement a case study of this proposal in the context of

bipolar disorder, a complex psychiatric disease, in order

to exemplify the potential of this approach for molecules

selection.

MASTER REGULATORS OF

TRANSCRIPTION

Since Susumu Ohno’s first applications of the term “master

regulator” or “master regulatory gene” to describe a gene that

occupies the very top of a regulatory hierarchy, re-definitions of

this concept have emerged to accommodate broader biological

facets. One such extended description positions master regulators

as participants in the specification of cellular lineages by

regulating multiple downstream genes either directly or through

a cascade of gene expression changes, ultimately retaining the

ability to re-specify the fate of cells (

Chan and Kyba, 2013

).

Changes in mRNA profiles are a key feature for phenotype

characterization from a cell type to another during development,

for example. The same rationale may be applied to physiological

to pathological transitions in biological systems. In this context,

gene expression changes are ultimately mediated and regulated

by the activity of transcription factors, which enable a relatively

small number of molecules to generate a large diversity of cell

types and phenotypic states (

Yeh et al., 2013

;

Bhagwat and Vakoc,

2015

;

Reiter et al., 2017

). Indeed, in several biological systems,

such as embryonic stem cells (

Muller et al., 2008

) or glioblastoma

(

Carro et al., 2010

;

Rooj et al., 2016

), it was observed that a

small number of transcription factors act as master regulators that

manage cellular outcome.

In this aspect, previous literature have observed that, given

differential gene expression profiles from two independent

studies, there was virtually no statistical significance in

the overlap between them and these signatures performed

poorly in classifying samples from the other study (

Michiels

et al., 2005

;

Lim et al., 2009

;

Padi and Quackenbush, 2015

).

This observation fits well with the idea of transcription

factors acting as master regulators, supporting an approach

of exploring the controllers of expression profiles, rather than

simply evaluating all differentially expressed genes between

two phenotypes of interest. However, the biological activity

of transcription factors may not be directly correlated with

their expression levels. For that reason, inference of activity

is often assessed through expression modifications of the

transcription factors’ target genes by reverse engineering

methods (

Fletcher et al., 2013

;

Wong et al., 2013

;

Padi and

Quackenbush, 2015

;

Castro et al., 2016

;

Senbabaoglu et al.,

2016

). These approaches can help uncover potentially relevant

regulatory units and biological consequences (Supplementary

Figure S1

).

The application of such view in the search for biological

markers of phenotypic states has provided new insights in many

biomedical investigations, such as cancer (

Fletcher et al., 2013

;

Castro et al., 2016

;

Chen et al., 2016

;

Udyavar et al., 2017

),

diabetes (

Piao et al., 2012

), and bipolar disorder (

Pfaffenseller

et al., 2016

).

SYSTEMS PHARMACOLOGY AND

COMPUTATIONAL DRUG

REPOSITIONING

The usual “one disease, one target, one drug” paradigm of drug

discovery clashes with the novel views of biology, failing to

yield effective medications for many complex conditions such as

cancer and neurodegenerative diseases (

Yildirim et al., 2007

). On

the other hand, a new archetype of drug research has emerged

in recent years, named

Systems Pharmacology. This paradigm

offers an integrated system-level way to drug repurposing or new

drugs identification, and facilitates prediction of effectiveness and

security of compounds during all phases of development (

van

der Graaf and Benson, 2011

;

Zhou et al., 2016

). Additionally, it

exploits a feature of drugs that for many years has been labeled

undesirable: that they often affect more than one molecular

target. In fact, this promiscuity, known as polypharmacology,

seems to be intrinsic to several drugs’ therapeutic efficacy

(

Hopkins, 2009

).

For drug repositioning, the seminal article of Lamb and

collaborators introduced the concept of molecular connectivity

map (CMap) (

Lamb et al., 2006

). The great adherence of the

(38)

fphar-09-00697

June 28, 2018

Time: 19:31

# 3

De Bastiani et al.

Master Regulators Connectivity Map

FIGURE 1 | General master regulators connectivity map pipeline. (A) Expression data from high-throughput sources are submitted to reverse engineering inference

algorithms to predict targets of known transcription factors, constituting regulons. (B) Using these regulons, master regulators of pathological phenotypes may be

selected by using different strategies (such as GSEA) and data from case-control studies. (C) In the CMap original proposal, users query lists of genes whose

expression correlates with a biological state of interest and assess their similarity to a reference collection of gene-expression profiles from cultured human cells

treated with 1000s of bioactive small molecules. Here, we propose the use of master regulators’ targets expressions to inquire new drug prospects for repurposing.

(D) The rationale of this connectivity map follows the modulation of the inferred targets of the master regulators transcription factors by the drug candidates.

community toward this new idea can be attributed to its embrace

of the

Systems Biology paradigm, which accepts that biological

elements have several interdependencies and are effectively

connected. In addition, this idea heralds that attempts to defeat

such notion by breaking the elements with a single targeted

intervention are probably ineffective. Hence, they proposed the

need to switch the entire state of the system to a more favorable

one, through modulation of many targets simultaneously (

Lamb,

2007

). Recently, the Library of Integrated Network-based Cellular

Signatures (LINCS) project, funded by the National Institutes

(39)

fphar-09-00697

June 28, 2018

Time: 19:31

# 4

De Bastiani et al.

Master Regulators Connectivity Map

FIGURE 2 | Bipolar disease master regulators connectivity map pipeline. (A) Human prefrontal cortex transcriptional network model was computed centered on

transcription factors from a large-scale microarray data obtained from Gene Expression Omnibus (GSE30272) using RTN package ARACNe algorithm with 200

permutations and permutation p-value

< 1e-06 (remaining network reconstruction parameters were kept at default values). (B) Regulons of EGR3, ILF2, MADD,

TSC22D4, and YBX1 were tested using GSEA in three different datasets of case-control (GSE5388, GSE12649, and GSE92538). (C) Samples from these studies

were merged based on their common genes, batch corrected using the sva package and a sub-graph of the regulatory units with more than 100 genes was

created. (D) The inferred TF-target association network of the five selected regulons was extracted and the targets’ logFC direction were inputted as query for the

connectivity map using PharmacoGx package using GSEA method and 1000 permutations. (E) Following the connectivity map propose, the drugs obtained ideally

revert the expression profiles of the pathologically altered regulatory units toward the normal phenotype.