Redes de co-expressão entre genes codificantes de proteínas mitocondriais e todos os restantes genes nos vários tecidos humanos

(1)

F

ACULDADE DE

E

NGENHARIA DA

U

NIVERSIDADE DO

P

ORTO

Redes de co-expressão entre genes

codificantes de proteínas mitocondriais

e todos os restantes genes nos vários

tecidos humanos

João Alexandre Ribeiro de Almeida

Mestrado Integrado em Engenharia Informática e Computação Orientadora: Dra. Luísa Pereira (I3S / IPATIMUP)

(2)

(3)

Redes de co-expressão entre genes codificantes de

proteínas mitocondriais e todos os restantes genes nos

vários tecidos humanos

João Alexandre Ribeiro de Almeida

(4)

(5)

Resumo

Avanços na sequenciação de genomas permitem estudar, para diferentes contextos, a activi-dade de todos os genes humanos identificados (cerca de 22.000 genes codificantes de proteínas). Contudo, o conhecimento actual sobre relações entre genes encontra-se longe de estar totalmente adquirido, nomeadamente quando pelo menos um dos elementos é um gene que codifica uma pro-teína mitocondrial (cerca de 1500). As propro-teínas mitocondriais são codificadas quer pelo DNA mitocondrial (mtDNA; 13 proteínas) quer pelo DNA nuclear (nDNA; as restantes), o que implica uma comunicação controlada entre os dois genomas. Uma vez que as mitocôndrias coordenam várias actividades celulares essenciais à vida, nomeadamente a produção de energia e a morte celular, a desregulação desta comunicação está implicada em muitas doenças complexas como doenças neurodegenerativas, cancro e diabetes.

Assim, este trabalho teve como objetivo identificar os grupos de co-expressão elevada (signi-ficativa) entre os pares de genes mitocondrial-todos os genes e as redes proteicas associadas em tecidos humanos. Os dados de expressão de genes em tecidos humanos saudáveis foram recolhidos da base de dados Genotype-Tissue Expression (https://www.gtexportal.org/home/), contabilizando 49 tecidos (um total de 8527 amostras, média de 174 por tecido). Os dados foram curados para inclusão de apenas genes codificantes de proteínas e fisicamente não sobreponíveis (só um dos genes sobreponíveis foi mantido). Os valores de correlação de Pearson foram calculados em to-dos os pares gene mitocondrial-toto-dos os genes proteicos, tendo-se eliminado os outliers que não se incluíam no intervalo [ux− 4SD, ux+ 4SD] ou [uy− 4SD, uy+ 4SD], em que SD corresponde ao desvio padrão (standard deviation). Todos os pares com valores de correlação acima de 0.9 e 0.8, o que corresponde a elevada quantidade de informação, foram representados em estrutura de grafos e analisados com técnicas de Data Mining, nomeadamente clustering, de modo a ex-trair informação útil. Para a análise das redes foi utilizada a ferramenta Cytoscape, que permitiu avaliar vários parâmetros de extensão e conexão das redes de genes correlacionados nos vários tecidos humanos. Estas redes foram enriquecidas com dados funcionais (pathways) das bases de dados Kyoto Encyclopedia of Genes and Genomes (http://www.genome.jp/kegg/) e Gene On-tology(http://www.geneontology.org/), que permitem inferir acerca da possível função exercida pelos genes correlacionados. De modo a comparar os dados funcionais entre tecidos, procedeu-se à técnica de clustering hierárquico, pela construção de matrizes binárias, matrizes de semelhança pelo método Jaccard e aplicação dos métodos de aglomeração UPGMA (Unweighted Pair Group Method with Arithmetic Mean) e NJ (Neighbor Joining). Foi desenvolvida uma plataforma web para visualizar e analisar, de forma interactiva, as árvores resultantes deste métodos.

Em termos biológicos, constatamos que existem pares de genes mitocondrial-todos os genes proteicos altamente correlacionados e que estes estão incluídos em pathways de elevada importân-cia funcional como a produção de energia e síntese de metabolitos. As redes são maiores e mais densas para os tecidos do cérebro, enquanto tecidos como o rim, sangue e fibroblastos apresen-tam apresen-também um elevado número de genes correlacionados mas não tão interconetados. Em geral, as elevadas correlações entre genes mitocondriais codificados pelo mtDNA limitam-se a genes

(6)

codificados por este genoma, enquanto que genes mitocondriais codificados pelo nDNA se corre-lacionam significativamente com outros genes (mitocondriais ou não) codificados pelo nDNA. O que prova que a correlação entre genes codificados pelo mesmo genoma é mais eficiente.

Toda a pipeline desenvolvida neste trabalho bem como a plataforma web será disponibilizada na plataforma GitHub em open source acompanhada da documentação de instalação para que possa ser facilmente utilizada ou adaptada a outras análises semelhantes nos muitos dados que vão sendo publicados, no contexto de doenças ou de outras espécies.

(7)

Abstract

Recent advances in genome sequencing allow the study, at different contexts, of all identified human gene activities (≈ 22.000 protein encoding genes). However, current knowledge on gene interactions lags behind, especially when one of the elements is a mitochondrial protein encoding gene (≈ 1500). Mitochondrial proteins are encoded either by mitochondrial DNA (mtDNA; 13 proteins) or by nuclear DNA (nDNA; the remaining), which implies a coordinated communication between the two genomes. Since mitochondria coordinate several life-critical cellular activities, namely energy production and cell death, deregulation of this communication is implicated in many complex diseases such as neurodegenerative diseases, cancer and diabetes.

Thus, this work aimed to identify high co-expression groups between mitochondrial genes-all genes, and associated protein networks in human tissues. Gene expression data for tissues were collected from the Genotype-Tissue Expression database (https://www.gtexportal.org/home/) counting 49 tissues (a total of 8527 samples, an average of 174 per tissue). The data was fil-tered to include only protein-encoding and physically non-overlapping genes (only one of the overlapping genes was maintained). Pearson’s correlation values were calculated on all pairs of mitochondrial genes-all protein encoding genes, and outliers in the range [ux− 4SD, ux+ 4SD] or [uy− 4SD, uy+ 4SD] (SD stands for standard deviation) were excluded. Gene pairs with a correlation higher than 0.9 and 0.8, corresponding to big datasets, were represented in graph structures and analyzed by Data Mining clustering techniques in order to help extracting impor-tant information. Cytoscape software was used for graph analysis, allowing to evaluate com-plex network parameters and identify connection properties on the biological networks. The networks were enriched with functional data (pathways) from two different biological databases: Kyoto Encyclopedia of Genes and Genomes (https://www.genome.kp/kegg) and Gene Ontology (http://www.geneontology.org). This network enrichment helped to infer biological functions of the correlated genes. Functional data comparison between tissues was conducted through hierar-chical clustering techniques, by building binary matrices, similarity matrices using Jaccard index and applying agglomeration methods such as UPGMA (Unweighted Pair Group Method with Arithmetic Mean) and NJ (Neighbor Joining). A web platform was built to interactively visualize and analyze the trees resulting from these methods.

Biologically, we confirmed the existence of highly correlated pairs of mitochondrial-all pro-tein encoding genes, which are included in pathways of functional importance such as energy production and metabolite synthesis. Brain tissues have the largest and most dense networks, while kidney cortex, whole blood and fibroblasts had large but sparser networks. Generally, the strongest correlation between mitochondrial genes encoded by mtDNA belong to genes encoded by this genome, while mitochondrial genes encoded by nDNA are significantly correlated with other genes (mitochondrial or not) encoded by nDNA. This proves that correlation among genes encoded by the same genome is more efficient.

The pipeline and the web tree viewer developed in this work will be available at GitHub under open source distribution along with installation documentation. This will make it possible to use

(8)

and adapt the tools to the analyses of datasets being released to the public, in the context of diseases or other species.

(9)

Agradecimentos

Gostaria de agradecer primeiramente à minha família que me apoiou desde o início ao término do meu percurso académico e aos meus amigos que sempre me apoiaram nos momentos menos bons. Uma palavra de agradecimento especial à minha orientadora Dr. Luísa Pereira e ao meu co-orientador Prof. Rui Camacho por todo o trabalho incansável que tiveram em orientar-me durante todo o percurso deste trabalho. Por último mas não menos importante, agradecer a todos os colaboradores do i3S, mais especificamente ao grupo de diversidade genética, por terem tornado o meu dia-a-dia de trabalho mais agradável.

(10)

(11)

“There is a crack in everything, that is how the light comes in.”

(12)

(13)

Conteúdo

1 Introdução 1

1.1 Contexto . . . 1

1.2 Motivação e Objetivos . . . 1

1.3 Estrutura da Dissertação . . . 2

2 Biologia Molecular, Genómica e Análise de Dados 3 2.1 Biologia Molecular . . . 3

2.1.1 DNA. . . 3

2.1.2 DNAMitocondrial . . . 4

2.1.3 Mutações no mtDNA e doenças . . . 5

2.1.4 Expressão Génica . . . 6

2.1.4.1 Base de dados de expressão génica GTEx . . . 7

2.1.5 Redes de genes/proteínas . . . 7

2.1.5.1 Bases de dados Gene Ontology e Kyoto Encyclopedia of Genes and Genomes . . . 7

2.2 Big Data. . . 8

2.3 Análise de Dados . . . 9

2.3.1 Estatística . . . 9

2.3.1.1 Coeficiente de correlação de Pearson . . . 9

2.3.1.2 Outliers . . . 10

2.3.2 Teoria dos Grafos . . . 11

2.3.2.1 Cytoscape . . . 14

2.3.3 Data Mining . . . 14

2.3.3.1 Classificação . . . 15

2.3.3.1.1 Construção de Árvores de Decisão - ID3 e C4.5 . . . 15

2.3.3.2 Clustering . . . 16

2.3.3.2.1 Algoritmos de clustering hierárquicos . . . 17

2.3.3.2.2 Algoritmos de clustering particionais . . . 19

2.3.3.3 Matriz de distâncias . . . 21

2.3.3.4 R - Linguagem de Programação . . . 21

3 Implementação 23 3.1 Extracção de dados . . . 25

3.2 Filtragem de dados e correlacão entre pares de genes . . . 25

3.3 Enriquecimento dos dados . . . 26

(14)

CONTEÚDO

4 Resultados 35

4.1 Resultados biológicos . . . 35

4.2 Plataforma Web - BioTree Viewer . . . 45

5 Conclusões 47 Referências 49 Appendices 53 A 55 B 57 x

(15)

Lista de Figuras

2.1 Comparação entre DNA e RNA [Suc]. . . 4

2.2 Detalhe da cadeia respiratória presente nas mitocôndrias [Chi]. . . 5

2.3 Conceptualização da via tradicional de computação em que as aplicações intera-gem com o hardware através de uma instância do sistema operativo e da evolução para ambientes virtuais onde várias imagens partilham recursos (CPU, RAM, ar-mazenamento e rede) que são geridas por software de virtualização (hypervisor ou virtual machine monitor) [ODS13]. . . 9

2.4 Possíveis resultados entre a correlação de duas variáveis X e Y . . . 10

2.5 Identificação de outliers em métodos baseados em clustering. . . 11

2.6 Diferenças entre um grafo orientado e um grafo não orientado. . . 12

2.7 Grafos em que as arestas possuem um peso associado. . . 12

2.8 Exemplo de rede não dirigida com 5 vértices e 6 arestas. . . 13

2.9 Técnica de clustering. Os dados que pertencem a um mesmo cluster apresentam o mesmo rótulo [JMF99]. . . 16

2.10 Taxonomia para as diferentes técnicas de clustering [JMF99]. . . 17

2.11 Árvore obtida após aplicação do algoritmo de clustering hierárquico single-link. . 18

2.12 Ilustração da identificação de arestas com a maior distância euclidiana no algo-ritmo de clustering Graph Theoretic. . . 20

2.13 Distância entre os pontos dos vários clusters e o respectivo centróide, no qual se baseia o algoritmo k-means. . . 20

3.1 Fases principais da implementação deste trabalho. . . 24

3.2 Detalhe da rede do tecido Adipose - Subcutaneous com 2310 nós e 12282 arestas. Quanto menor a transparência das arestas mais forte a correlação entre os genes. Quanto maior o tamanho do vértice, maior o seu valor de Betweenness Centrality. 28 3.3 A mesma árvore representada em3.8 . . . 31

3.4 Diagrama de processos da plataforma web depositada num servidor. . . 32

3.5 Esquematização do módulo, representado por um programa desenvolvido em R e outro em Prolog. . . 33

4.1 Parâmetros das redes de genes com correlação > 0, 9 em 49 tecidos. . . 37

4.2 Redes de genes com correlação > 0, 9 no tecido Brain - Anterior cingulate cortex. Assinalado o elevado número correlações com genes mitocondriais, resultando uma rede muito densa. . . 38

4.3 Redes de genes com correlação > 0, 9 no tecido Kidney (cortex). Assinalados grupos de sub-redes existentes, aumentando o valor de centralidade dos vértices. . 39

(16)

LISTA DE FIGURAS

4.4 Redes de correlação > 0, 9 que envolvem pares de genes mtDNA-nDNA nos te-cidos brain-hypothalamus, colon-transverse, kidney-cortex e cells-transformed-fibroblasts. . . 40

4.5 Parâmetros das redes de genes com correlação > 0, 8 em 49 tecidos. . . 41

4.6 Redes de correlação > 0, 8 que envolvem pares de genes mtDNA-nDNA nos te-cidos brain-hypothalamus, colon-transverse, kidney-cortex e cells-transformed-fibroblasts. Os vértices a vermelho na rede do tecido cells-transformed-fibroblasts representam os genes MT-ND1, MT-ND2 e MT-ND3. . . 42

4.7 Árvores resultantes do enriquecimento com dados do KEGG em redes de correla-ção > 0, 9. As cores agrupam os tecidos de acordo com a similaridade de locali-zação/histológica, em que: vermelho - sistema cardiovascular; castanho - sistema digestivo; verde - sistema exócrino e endócrino; castanho claro - sistemas hémico e imune; azul sistema tegumentar; preto sistema musculoesquelético; violeta -sistema nervoso; ciano - -sistema respiratório; laranja - -sistema urogenital. . . 43

4.8 Árvore em formato vertical. As cores dos tecidos representam diferentes sistemas do corpo humano. É possível a pesquisa por determinada palavra, os tecidos que a conterem serão assinalados na árvore através de uma linha tracejada. . . 45

4.9 Análise de pathways e genes em comum entre os tecidos marcados com ramos a azul. É possível a pesquisa e exportação dos dados . . . 46

(17)

Lista de Tabelas

2.1 Valor do r e correlação. . . 10

A.1 Número de amostras e grupos dos tecidos. . . 55

(18)

LISTA DE TABELAS

(19)

Abreviaturas e Símbolos

CSV Comma-separated values

DBSCAN Density-based spatial clustering of applications with noise DM Data Mining

DNA Deoxyribonucleic Acid gct Gene Cluster Test gmt Gene Matrix Transposed

GTEx The Genotype-Tissue Expression project GO Gene Ontology

ID3 Iterative Dichotomiser 3 JSON JavaScript Object Notation mRNA Messenger Ribonucleic Acid

mtDNA Mitochondrial Deoxyribonucleic Acid nDNA Nuclear Deoxyribonucleic Acid NJ Neighbor Joining

K-NN K-Nearest Neighbors

KDD Knowledge Discovery in Databases

KEGG Kyoto Encyclopedia of Genes and Genomes PPI Protein-protein Interactions

RNA Ribonucleic Acid

TCGA The Cancer Genome Atlas tRNA Transfer Ribonucleic Acid

(20)

(21)

Capítulo 1

Introdução

1.1 Contexto

O facto de actualmente já ser possível a sequenciação total do genoma humano permite um estudo mais aprofundado do mesmo, levantando novas questões científicas. A grande quantidade de informação gerada pelas sequenciações em larga escala trazem novos desafios na área da Bi-oinformática. O estudo destes dados permite avaliar de uma forma mais refinada a influência do genoma humano no fenótipo de um indivíduo e qual a relação dos genes com as doenças deno-minadas complexas. O genoma humano está organizado em genoma nuclear (nDNA) concentrado no núcleo e genoma mitocondrial (mtDNA) localizado nos organelos citoplasmáticos designa-dos mitocôndrias. As mitocôndrias são responsáveis pela produção da energia celular e, como tal, desempenham um papel essencial na vida celular, estando já implicadas em muitas doenças complexas como doenças neurodegenerativas, cancro, diabetes, etc. Todos os genes proteicos mitocondriais (13) codificam proteínas mitocondriais, mas 99% das proteínas mitocondriais são codificadas pelos genes nucleares (entre 1000-2000 genes). Assim, os dois genomas têm que estar finamente coordenados por mecanismos ainda largamente desconhecidos. É por isso importante compreender como os genes do nDNA e mtDNA se relacionam entre si nos vários tecidos do or-ganismo, pela análise de correlações de expressão génica, em estado saudável e em situação de doença.

A existência de bases de dados públicas como o GTEx e o TCGA permite abordar esta questão. Estas bases de dados disponibilizam dados de expressão génica de todos os genes humanos codifi-cados em vários tecidos do organismo, em indivíduos saudáveis (que morreram maioritariamente devido a acidentes) no GTEx e em pacientes de cancro no TCGA.

1.2 Motivação e Objetivos

O acesso público a grandes quantidades de dados genómicos e transcriptómicos abre portas para estudos aprofundados. A motivação deste trabalho surge da falta de conhecimento em como o nDNA se coordena com o mtDNA na codificação de proteínas mitocondriais. A identificação

(22)

Introdução

de grupos de co-expressão entres pares de genes pode fornecer informações importantes sobre as redes proteicas e como estas diferem de tecido para tecido. O estudo, em específico, de pares em que um dos membros é uma proteína mitocondrial (seja esta codificada pelo mtDNA ou nDNA) pode contribuir com informação essencial sobre como a interacção entre os dois genomas.

Assim, este trabalho tem como objectivo identificar grupos de co-expressão entre pares de genes que codificam proteínas mitocondriais versus todas as proteínas nos vários tecidos do orga-nismo em situação saudável, de modo a perceber de que forma o nDNA e o mtDNA se encontram coordenados na expressão fenotípica do indivíduo. É também objectivo deste trabalho a realização de uma pipeline genérica que permita aplicar o mesmo tipo de análise a outros dados, relativos a outros organismos ou doenças. Os resultados destas análises serão utilizados para identificação e ponto de partida de possíveis casos estudo.

1.3 Estrutura da Dissertação

Para além da introdução, esta dissertação é composta por mais 4 capítulos. No capítulo 2, são apresentados conceitos biológicos básicos e fundamentais para perceber o trabalho realizado e é descrito o estado de arte em Data Mining, Teoria de Grafos e Big Data. No capítulo 3, é referida a implementação do trabalho, detalhando todas as etapas da análise dos dados e discutindo os métodos e técnicas utilizadas. Os detalhes da plataforma web BioTree Viewer são também discutidos neste capítulo. No capítulo 4 são apresentados os resultados da análise dos dados e são demonstrados o conjunto de funcionalidades da plataforma desenvolvida e potenciais usos. Finalmente, no capítulo5são apresentadas as conclusões deste trabalho.

(23)

Capítulo 2

Biologia Molecular, Genómica e Análise

de Dados

Neste capítulo apresentam-se os conceitos básicos relevantes para o nosso estudo e é também descrito o estado de arte. São referidos trabalhos relacionados para mostrar o que existe no mesmo domínio e quais os problemas em aberto. Por fim, são descritas tecnologias de Análise de Dados relevantes para o estudo.

2.1 Biologia Molecular

As células são a unidade estrutural dos seres vivos. Nos organismos eucarióticos, existem compartimentos celulares designados organelos, como o núcleo, mitocôndrias, cloroplastos (só existentes nas células vegetais), retículo endoplasmático, ribossomas, vacúolos, etc. O núcleo é um dos organelos mais importantes pois é neste que estão situados os cromossomas que con-têm o ácido desoxirribonucleico (DNA). O DNA contém as instruções genéticas que coordenam o funcionamento e o desenvolvimento dos seres vivos.

2.1.1 DNA

O DNA é constituído por unidades de bases azotadas denominadas nucleótidos (Figura 2.1). Cada nucleótido contém uma molécula de açúcar (do tipo desoxirribose), um grupo fosfato e ainda uma base azotada. Existem quatro tipos de bases azotadas: Citosina (C), Guanina (G), Adenina (A) e Timina (T). Os nucleótidos ligam-se entre si através dos grupos fosfato, formando uma longa molécula ou cadeia e é a ligação de duas cadeias que forma a estrutura em dupla-hélice. Esta ligação em dupla-hélice faz-se através das bases azotadas, sendo altamente específica ou complementar: a Adenina só se liga à Timina e a Citosina à Guanina.

A informação contida no DNA tem que ser transformada em proteínas de modo à célula conse-guir interpretar essa informação. A sequência de nucleótidos que contém a informação para uma

(24)

Biologia Molecular, Genómica e Análise de Dados

determinada proteína recebe a designação de gene. A espécie humana tem cerca de 22.000 genes [VAM+01], distribuídos ao longo de cerca de 6.469,66 Mega pares de bases, organizadas em 23 pares de cromossomas, localizados no núcleo. O Homem é um organismo diplóide, o que significa que possui dois pares de cromossomas homólogos, um par recebido da mãe e o outro recebido do pai. Destes, 22 pares são designados por autossomas (o cromossoma paterno é igual ao materno) e um par é designado por cromossomas sexuais (os cromossomas são iguais e designados por X no sexo feminino; são diferentes, um X e um Y, no sexo masculino). O conjunto de cromossomas de um organismo é também conhecido como genoma.

Figura 2.1: Comparação entre DNA e RNA [Suc].

2.1.2 DNA Mitocondrial

Apesar de um genoma de um organismo eucariota estar localizado principalmente no núcleo, alguns organelos do citoplasma contêm o seu próprio DNA. Este é o caso das mitocôndrias e, nas plantas, também dos cloroplastos.

As mitocôndrias são organelos intracelulares compostos por duas membranas e estão presentes em quase todas as células eucarióticas, nomeadamente nas células nucleadas dos mamíferos. As mitocôndrias estão muito relacionadas com a homeostasia celular. Estas exercem funções muito importantes na apoptose (morte celular), na conversão de nutrientes em componentes celulares (metabolismo intermediário) mais especificamente o ciclo de Krebs, e no metabolismo de aminoá-cidos, lípidos entre outras funções. As mitocôndrias são as principais responsáveis pela produção de energia celular, uma vez que são capazes de sintetizar energia ATP (Adenosine triphosphate) essencial para as células, num processo designado por cadeia respiratória (Figure 2.2).

(25)

Figura 2.2: Detalhe da cadeia respiratória presente nas mitocôndrias [Chi].

A primeira sequência de DNA mitocondrial (mtDNA) humano foi publicada em 1981 [TAK+99]. Este acontecimento impulsionou o interesse no estudo do genoma mitocondrial de forma a perce-ber qual a sua relação com a evolução humana e doenças. Actualmente, já é possível sequenciar genomas mitocôndriais completos em larga escala trazendo novos desafios bioinformáticos de-vido à grande quantidade de informação gerada. O mtDNA humano contém 16569 pares de bases e codifica 13 proteínas da cadeia respiratória, bem como dois RNAs ribossómicos (rRNA) e 22 tR-NAs. Mas a quantidade de proteínas mitocondriais é muito superior – pelo menos entre 1000-2000 proteínas estão já catalogadas nas mitocôndrias, muitas delas fazendo também parte da cadeia respiratória, formando complexos com as proteínas codificadas pelo mtDNA. Essas cerca de 98% proteínas mitocondriais são codificadas pelo DNA nuclear (nDNA), traduzidas no citoplasma e de-pois transportadas para as mitocôndrias [Sho01]. Sabe-se que os genes nucleares têm um papel importante nomeadamente no controlo do genoma mitocondrial, como os que codificam a mtDNA polimerase γ (POLG1) [GDL+01], produtos que garantem um equilíbrio de nucleótidos livres den-tro da mitocôndria [Nis99], a proteína Twinkle (sintetizada pelo gene C10orf2) que parece intervir na manutenção do mtDNA [SLT+01]. O nDNA também produz alguns factores de transcrição e tradução mitocondrial [FGR+02] . Pode-se afirmar que uma mutação quer nos genes do nDNA ou do mtDNA podem gerar disfunção nas mitocôndrias.

2.1.3 Mutações no mtDNA e doenças

Estudos epidemiológicos recentes demonstraram que o aparecimento de doenças devido a mu-tações ao nível do mtDNA é mais comum do que se imaginava [MMU+98].

(26)

Este tipo de mutações pode ser encontrado em pelo menos 1 em cada 8000 Europeus e uma doença causada por uma mutação no mtDNA em 1 em cada 15000 adultos. A maior parte das crian-ças com uma disfunção mitocondrial têm uma mutação num gene nuclear que se revela importante na cadeia respiratória [URR+00]. Mas as mutações também ocorrem no mtDNA, dividindo-se em dois grupos: mutações pontuais (alteração das bases azotadas no gene) e rearranjos (inserções, deleções e inversões de partes da molécula) [SBD97,Wal99,DS01].

No caso das mutações serem no mtDNA, há um factor adicional a ter em conta devido a todas as células diplóides humanas conterem milhares de cópias de mtDNA, em comparação com as duas cópias no nDNA. À nascença, o material genético das diferentes cópias é idêntico (homoplasmia intracelular), mas ao longo da vida vão-se acumulando mutações somáticas que levam a diferentes populações de mtDNA na mesma célula ou tecido (heteroplasmia) [LC95]. A proporção de mtDNA mutante varia de célula para célula. Estudos demonstraram que a proporção de mtDNA mutante tem que exceder um limite crítico (normalmente entre 50% e 85%) para que exista um defeito bi-oquímico na cadeia respiratória de célula [SBD97]. O valor limite varia de mutação para mutação e consoante o tecido em que é aplicável. Estes fatores foram induzidos através da observação de relações genéticas entre diferentes indivíduos que pertencem a determinada descendência (pedi-grees) em que estes transmitiram mtDNA mutante para os seus descendentes [WBM+98]. Estudos recentes apontam que o nDNA pode ser responsável por regular os níveis de heteroplasmia pre-sentes na mitocôndria, desempenhando um papel adicional na determinação do fenótipo de uma doença no mtDNA [BS01].

2.1.4 Expressão Génica

A expressão génica faz-se através de um processo denominado por síntese proteica, que é cons-tituído por duas fases, em que a informação contida no DNA é convertida na proteína que codifica. Este processo é essencial para que a célula funcione. A primeira fase é a transcrição do DNA. Nesta fase, a informação que se encontra no DNA é copiada para um RNA (ácido ribonucleico) mensageiro (mRNA) com tempo de vida curto. A estrutura do RNA é diferente da do DNA. O RNA contém ribose em vez de desoxirribose e as 4 bases azotadas que se ligam à ribose são a Citosina (C), Guanina (G), Adenina (A) e Uracilo (U) e forma uma molécula em cadeia simples. Durante a fase de transcrição o DNA desemparelha a cadeia dupla e o mRNA é gerado através do emparelha-mento das bases do mRNA de forma complementar com as bases do DNA (com a diferença que a Timina é substituída por Uracilo: C-G e T-U). Após a produção do mRNA, este é transportado do núcleo para o citoplasma, onde vai ser traduzido num organelo denominado ribossoma. Durante esta segunda fase, a leitura do mRNA faz-se de três em três bases, em que cada tripleto ou codão é traduzido num aminoácido que irá constituir a proteína. O tradutor é um outro tipo de RNA, o RNA transportador ou tRNA, que possui numa extremidade o aminoácido que corresponde a um determinado conjunto de três bases azotadas, o anti-codão que vão ser complementares ao mRNA que está a ser traduzido. Este código, que permite a tradução da informação do mRNA a proteína é conhecido por código genético.

(27)

A síntese proteica das proteínas mitocôndriais codificadas pelo nDNA decorre da maneira des-crita, mas engloba um passo adicional que consiste no transporte dessas proteínas do citoplasma para as mitocôndrias. Maioritariamente, estas proteínas têm uma sequência inicial que funciona como sinal identificador, sendo posteriormente removida quando a proteína já se encontra no in-teior do organelo. A síntese proteica das proteínas mitocondriais codificadas pelo mtDNA decorre no interior das mitocôndrias e não no citoplasma. O código genético mitocondrial é ligeiramente diferente do código genético nuclear, mas o processo é totalmente idêntico [Chi].

Nos organismos multicelulares, com tecidos diferenciados e especializados, os genes não são expressos na sua totalidade em todos os tecidos. Há genes, denominados housekeeping, que são expressos em todos os tecidos, mas a maioria tem padrão de expressão variável conforme a es-pecialização do tecido [HDY+01]. Por exemplo, um neurónio precisa de transmitir informação eléctrica, enquanto uma célula renal tem que excretar substâncias tóxicas.

2.1.4.1 Base de dados de expressão génica GTEx

O Genotype-Tissue Expression é uma base de dados com informação da expressão génica em diferentes tecidos humanos. Esta informação quantitativa foi obtida através da sequenciação de mRNAextraído de tecidos post-mortem de indivíduos acidentados. Os indivíduos elegíveis tinham idades compreendidas entre os 21 e os 70 anos, numa proporção semelhante entre os géneros e eram maioritariamente caucasianos [LTS+13]. A condição essencial era que a extracção fosse realizada até 24 horas após morte, dado que a degradação do mRNA é muito rápida, variando con-soante a zona do tecido e o tempo isquémico da amosta (intervalo de tempo em que a amostra não tem irrigação sanguínea). Através da disponibilização pública destes dados, é possível aos in-vestigadores aprofundar o estudo na expressão génica e identificar através dos diferentes níveis de expressão quais as regiões mais influentes do genoma e de que maneira podem afectar a expressão dos genes.

2.1.5 Redes de genes/proteínas

As redes de genes/proteínas representam o conjunto de processos físicos e metabólicos que determinam as propriedades fisiológicas e bioquímicas da célula. Como tal, estas redes compre-endem as reacções químicas do metabolismo, as vias metabólicas, bem como as interacções regu-latórias que coordenam estas reacções. Em termos de processamento de informação, a comparação de listagens de centenas de genes pode ser pouco esclarecedora em termos biológicos, mas quando a organização em redes é sobre-imposta, a inferência dos processos funcionais é muito mais fácil e robusta.

2.1.5.1 Bases de dados Gene Ontology e Kyoto Encyclopedia of Genes and Genomes

Dois exemplos de redes de genes/proteínas informativas são as bases de dados Gene Ontology (GO) e Kyoto Encyclopedia of Genes and Genomes (KEGG).

(28)

A base de dados GO fornece informações sobre a funções e interacções de genes e proteínas e classifica-as em diferentes ontologias: processos biológicos (GO BP), funções moleculares (GO MF) e componentes celulares (GO CC) [ABB+00]. A ontologia de processos biológicos refere-se ao objectivo biológico do gene ou proteína. Um processo é atingido através de uma conjunto de funções moleculares. Na maior parte das vezes os processos envolvem uma transformação física ou química, ou seja, o que entra como input de um processo é transformado e resulta em algo dife-rente. Exemplo de alguns processos biológicos são manutenção e crescimento celular (cell growth and maintenance), transdução de sinal (signal transduction), translação (translation) ou biosíntese de cAMP (cAMP biosynthesis). A função molecular é definida como a actividade bioquímica de um gene da proteína que este codifica. Esta ontologia descreve apenas o resultado sem especificar onde ou qual a situação em que o evento ocorre. Exemplos de alguns termos funcionais são enzima (enzyme), transportador (transporter) ou ligando (ligand). A componente celular indica o local na célula em que o gene se encontra activo. Estes termos refletem o conhecimento actual acerca da estrutura da célula eucariótica e como exemplo podem-se encontrar os termos ribossoma (ribo-some), proteossoma (proteasome) ou membrana nuclear (nuclear membrane). Esta base de dados é composta por 41775 termos, em que 27284 referem-se a processos biológicos (GO BP), 10733 a funções moleculares (GO MF) e 3758 a componentes celulares (GO CC) [C+15]. A estrutura de uma ontologia compreende termos e relações entre eles bem definidas. A sua estrutura representa o conhecimento biológico actual e serve também como guia para organizar novos dados. Os dados podem ser classificados em diferentes níveis, do mais geral ao particular. Os termos do GO são representados por vértices numa rede e as arestas entre os seus vértices pais (termos de nível mais geral) e filhos (termos de nível mais particular) são conhecidas e formam grafos acíclicos directos. O KEGG é uma enciclopédia que tem como principal objectivo associar genes e genomas a determinas funções desde o nível molecular a níveis mais gerais. O KEGG foi originalmente de-senvolvido em 1995 como uma base de dados integrada para a interpretação biológica de sequen-ciação completa de genomas através do mapeamento de vias metabólicas. A base de dados de vias metabólicas KEGG PATHWAY é a base de dados principal do KEGG e compreende diferentes categorias: metabolismo (metabolism), processamento de informação genética (genetic informa-tion processing), processamento de informação do meio celular (environmental informainforma-tion pro-cessing), processos celulares (cellular processes), sistemas do organismo (organismal systems), doenças (human diseases) e desenvolvimento de medicamentos (drug development) [KFT+17].

2.2 Big Data

Big Data é o termo atribuído aos conjuntos de dados aos quais as aplicações de processa-mento tradicionais não são adequadas devido ao facto de serem grandes ou demasiado complexos. Muitas vezes estes datasets trazem um conjunto de desafios como, por exemplo, a sua análise, visualização, transferência, etc. Big Data pode ser definida por um conjunto de características [Hil16]:

• Variabilidade - inconsistência dos dados dificulta os processos de tratamento e gestão; 8

(29)

• Veracidade - a qualidade da informação pode ser variável influenciando negativamente a sua análise;

• Variedade - o tipo e a natureza da informação ajuda os especialistas que analizam a infor-mação a obter resultados mais concisos;

• Velocidade - a velocidade com que a informação é gerada e processada de forma a resolver os desafios em tempo adequado;

• Volume - quantidade de informação que é gerada e guardada. O volume de informação determina se efectivamente a informação é considerada Big Data.

Foi com esta necessidade de trabalhar com grandes quantidades de informação que começaram a surgir novas tecnologias. Estas tecnologias utilizam diversos clusters para a análise dos dados de forma mais rápida e eficaz.

Figura 2.3: Conceptualização da via tradicional de computação em que as aplicações interagem com o hardware através de uma instância do sistema operativo e da evolução para ambientes virtuais onde várias imagens partilham recursos (CPU, RAM, armazenamento e rede) que são geridas por software de virtualização (hypervisor ou virtual machine monitor) [ODS13].

2.3 Análise de Dados

2.3.1 Estatística

Para conseguir determinar a relação entre os diferentes genes existentes, é necessário recorrer a ferramentas estatísticas.

2.3.1.1 Coeficiente de correlação de Pearson

A intensidade da associação linear existente entre as duas variáveis pode ser quantificada atra-vés do coeficiente de correlação linear de Pearson, dado pela equação:

r= CX,Y SX, SY

, r ∈ [−1, 1] (2.1)

O valor CX,Y corresponde a covariância ou variância conjunta das váriaveis X e Y , SX e SY correspondem ao desvio padrão das variáveis X e Y , respectivamente. O cálculo da covariância (CX,Y) é dado pela equação:

Cx,CY =

∑ni=1(xi− ux)(yi− uy)

(30)

(a) Correlação positiva. (b) Ausência de correlação.

Figura 2.4: Possíveis resultados entre a correlação de duas variáveis X e Y .

Dependendo do valor final de r é possível determinar se as variáveis se encontram de alguma maneira correlacionadas ou não.

Tabela 2.1: Valor do r e correlação. Coeficiente de correlação (r) Correlação

r= 1 Perfeita positiva 0, 8 ≤ r < 1 Forte positiva 0, 5 ≤ r < 0, 8 Moderada positiva 0, 1 ≤ r < 0, 5 Fraca positiva 0 < r < 0, 1 Ínfima positiva 0 Nula −0, 1 < r < 0 Ínfima negativa −0, 5 < r ≤ −0, 1 Franca negativa −0, 8 < r ≤ 0, 5 Moderada negativa −1 < r ≤ −0, 8 Forte negativa r= −1 Perfeita negativa 2.3.1.2 Outliers

Algumas observações podem, por vezes, apresentar grandes afastamentos da maioria ou serem inconsistentes. Estas observações são denominadas de outliers. O estudo de outliers, quaisquer que sejam as suas causas, pode ser realizado em várias etapas.

A fase inicial é responsável pela identificação de potenciais outliers. A identificação geral-mente é feita por análise gráfica ou no caso de o conjunto de dados ser pequeno pode ser por observação directa dos mesmos. A segunda fase tem como papel principial determinar se os po-tenciais outliers são efectivamente outliers. São escolhidos testes adequados para a situação em estudo. Na última fase decide-se o que fazer com os outliers previamente identificados. Geral-mente, a abordagem utilizada é a eliminação dessas observações, contudo só se justifica no caso de os outliers serem provocados por erros cuja correcção é inviável.

(31)

Existem um conjunto de técnicas e métodos que permitem identificação de outliers. Nos métodos baseados em clustering tentam-se formar grupos de dados e os que não se encaixam em nenhum dos grupos são considerados como excepções.

Figura 2.5: Identificação de outliers em métodos baseados em clustering.

Uma das vantagens destes métodos é que não requer conhecimento prévio de distribuição, no entanto como limitação este optimiza agrupamentos e não diretamente a detecção de excepções.

Nos métodos baseados em estatística assume-se a distribuição ou modelo probabilístico para o dataset. Através da realização de testes de discordância é possível identificar os outliers com respeito ao modelo probabilístico escolhido. Este tipo de método permite avaliar a significância de uma excepção, contudo o modelo escolhido influencia a identificação dos outliers.

Existem também métodos baseados no desvio padrão em que as excepções são definidas como pontos cujo valor desviam da maioria ao longo das dimensões. Mais em específico a busca ge-nética com uma função de selecção, crossover e mutação específica para o problema permite encontrar, com um custo muito menor, a maioria das excepções.

Por fim, os métodos baseados na distância vêm resolver algumas limitações dos métodos es-tatísticos. Um outlier é determinado baseado na distância Dk(p), isto é, a distância de p ao seu k-ésimo vizinho. Este método evita a suposição sobre a distribuição dos dados, tem um custo computacional menor, no entanto não é escalável para mais do que 5 dimensões.

2.3.2 Teoria dos Grafos

Um grafo é um par ordenado (V, A) em que V é um conjunto qualquer não vazio e A é um subconjunto de V , o conjunto de todos os pares não-ordenados de V . O conjunto dos elementos de V é denominado de vértice ou nó e o conjunto dos elementos de A é designado de arestas. Se o grafo possuir arestas com direcção, este é designado de grafo orientado.

(32)

(a) Grafo orientado, as arestas têm direcção. (b) Grafo não dirigido.

Figura 2.6: Diferenças entre um grafo orientado e um grafo não orientado.

As arestas, independentemente de terem uma direcção ou não, podem ter um peso associado. Este valor pode ter significados diferentes consoante aquilo que o grafo em questão representa. Se um grafo estiver a ser utilizado, por exemplo, como representação de uma rede biológica em que os vértices representam os genes e as arestas as interacções entre eles, o peso de uma aresta pode corresponder ao valor de correlação entres os 2 genes.

Figura 2.7: Grafos em que as arestas possuem um peso associado.

Na teoria dos grafos existem parâmetros, uns mais complexos que outros, que permitem o estudo mais aprofundado das redes nomeadamente o grau de um vértice (degree), medidas de centralidade como a intermediação (betweenness centrality), proximidade (closeness centrality) e radialidade (radiality), coeficiente de clustering, caminho mais curto entre outros. A análise destes parâmetros permitem tirar conclusões importantes sobre as redes.

O grau de um vértice v indica o número de vértices adjacentes a v. Seja G = (V, E) um grafo não dirigido, o somatório dos graus dos vértices de G pode ser dado por:

∑

v∈[V ]

deg(v) = 2|E| (2.3)

O coeficiente topológico (topological coefficient) de um nó é uma medida relativa que permite avaliar o número de vizinhos partilhados entre si e os vértices vizinhos. O coeficiente topológico Tnde um vértice n com knvizinhos, é calculado por:

Tn=

avg(J(n, m)) Kn

(2.4)

(33)

em que J(n, m) é definido para todos os vértices m que partilham pelo menos um vértice com n. J(n, m) é o número de vizinhos partilhados entre os nós n e m e se estes forem adjacentes é adicionada uma unidade. Os vértices que possuem menos de 2 nós adjacentes têm um valor de coeficiente topológico nulo.

Figura 2.8: Exemplo de rede não dirigida com 5 vértices e 6 arestas.

Utilizando como exemplo a rede da figura2.8, o coeficiente topológico do vértice b, é dado por:

J(b, c) = J(b, d) = J(b, e) = 2 Tb= 2/3

A intermediação (betweenness centrality) de um vértice b é um parâmetro que indica a cen-tralidade de b na rede. Calcula o número de caminhos mais curtos de todos os vértices para quaisquer outros que passem por b. Este parâmetro só é calculado para redes que não possuem arestas paralelas. O valor de betweenness centrality C(b) de um vértice b é dado por:

C(b) =

_∑

s6=b6=t

σst(b) σst

(2.5)

em que s e t são vértices pertencentes à mesma de b, σst corresponde ao número total de caminhos mais curtos do vértice s para t e σst(b) é o número de caminhos mais curtos que passam pelo vértice b. Este valor final é normalizado através da seguinte expressão:

CNormalizado(b) =

C(b)

(N − 1)(N − 2),CNormalizado(b) ∈ [0, 1] (2.6) onde N é o número de vértices existentes no componente grande (sub-rede ou não) em que o vértice b se encontra. O valor de CNormalizado(b) na rede da figura2.8pode ser calculado por:

(34)

CNormalizado(b) = ((σac(b)/σac) + (σad(b)/σad) + (σae(b)/σae) + (σcd(b)/σcd) +(σce(b)/σce) + (σde(b)/σde))/((5 − 1) − (5 − 2)/2) =

((1/1) + (1/1) + (2/2) + (1/2) + 0 + 0)/6 = 3.5/6 ≈ 0.583

A radialidade é outra medida que, tal como a anterior, avalia a centralidade de um vértice numa rede tendo em conta o diâmetro da componente em que um vértice se localiza. Este parâmetro indica a tendência média de proximidade ou isolamento de um vértice. A radialidade de um vértice n, é dado por:

R(n) =

_∑

n6=b L(n, b) − N + 1 RNormalizado(n) = R(n) (N − 1), RNormalizado(n) ∈ [0, 1]

em que N corresponde ao diâmetro do componente onde o vértice n se encontra, b corresponde a todos os vértices diferentes de n e L(n, b) corresponde ao valor do caminho mais curto entre o vértices n e b.

2.3.2.1 Cytoscape

O Cytoscape é um software open-source que permite visualizar e analisar dados através de redes (grafos) [SMO+03]. A facilidade de integração de qualquer tipo de dados e posterior vi-sualização na forma de redes é uma das melhores funcionalidades deste software. O Cytoscape permite a análise de variados parâmetros complexos das redes e posterior exportação da informa-ção em formato csv e JSON. Além das funcionalidades principais, este pode ser extendido através do desenvolvimento de aplicações (plugins). Este software conta com uma App Store bastante enriquecida que permite adicionar um conjunto de funcionalidades muito variadas ao core do pro-grama, permitindo numa análise mais profunda e detalhada das redes.

2.3.3 Data Mining

Data Miningé uma das fases de um processo mais complexo de análise de dados chamado Knowledge Discovery in Databases (KDD). Este processo consiste em explorar grandes quanti-dades de datasets com o objectivo de identificar padrões consistentes, como regras de associação ou sequências temporais, de forma a detectar possíveis relacionamentos entre variáveis e conse-quente geração de novos subconjuntos. As aplicações de Data Mining podem ser classificadas por vários conjuntos de problemas que possuem características semelhantes nos vários domínios de aplicação. Estas são suportadas por um conjuntos de algoritmos que são utilizados para extrair as relações relevantes dos datasets. Os algoritmos diferem consoante o tipo de problema que visam

(35)

solucionar. Neste trabalho em específico, o interesse está centrado nas técnicas de classificação e clusteringuma vez que são estas que se adequam ao problema que é pretendido solucionar.

2.3.3.1 Classificação

A técnica de classificação consiste em prever determinado resultado baseado nos dados que são dados como input. Para que seja possível a previsão de resultados, o algoritmo processa um training setcontendo um conjunto de atributos em que os resultados são conhecidos de antemão. O algoritmo tenta identificar relações entre diferentes atributos que permitam prever o resultado final. Na fase seguinte é fornecido um dataset desconhecido denominado de prediction set que contém o mesmo conjunto de atributos excepto o resultado, ainda desconhecido. Finalmente, o algoritmo analisa os dados e produz uma previsão. Esta técnica recorre a regras IF-THEN para produzir resultados. O antecedente (IF) consiste num conjunto de condições e o seu consequente THEN prevê um determinado valor no atributo que satisfaça as condições presentes no antecedente.

Excepto para determinado problemas específicos, a técnica de classificação por definição re-corre sempre a algoritmos de aproximação [VV07].

2.3.3.1.1 Construção de Árvores de Decisão - ID3 e C4.5

O ID3 induz árvores de decisão a partir de um dataset. A árvore resultante é usada para classificar futuras amostras. ID3 separa os dados em vários subconjuntos de forma a que estes contenham exemplos de uma única classe. Os nós folha da árvore de decisão resultante contêm o nome da classe enquanto os outros são nós de decisão. O ID3 é um algoritmo não incremental, ou seja, as classes são derivadas de um conjunto training sets que não é variável. As classes criadas por este algoritmo são indutivas e funcionam para todas as futuras classificações. Os training sets fornecidos ao ID3 têm que respeitar certos requisitos:

• Descrição atributo-valor - os mesmo atributos devem descrever cada exemplo e terem um número fixo de valores;

• Classes pré-definidas - as classes dos exemplos fornecidos já têm que estar definidas. • Classes discretas - Não podem existir classes ambíguas. Estas devem ser bem definidas e

diferentes entre elas de maneira a diminuir possíveis erros nas induções dos resultados. • Número suficiente de exemplos - uma vez que o ID3 gera as árvores de decisão a partir de

indução é necessário existir um número de exemplos suficientes que permitam destinguir todos os possíveis padrões.

Para determinar quais os atributos mais importantes, o ID3 utiliza a entropia como medida de impureza. A entropia de um nó N é dada pela equação:

Entropia(N) = − k

∑

C=1

(36)

em que p(C|N) é a fracção de elementos que correspondem à classe C, no nó N e k é o número de classes. Para determinar o quanto um atributo é bom, é necessário recorrer ao conceito de ganho que traduz a diferença entre a impureza do nó pai e a soma da impureza das partições resultantes, multiplicadas pelas suas probabilidades. O ganho associado a uma divisão D, é dado pela equação:

Ganho(D) = Entropia(Npai) − n

∑

Uma das limitações do ID3 é que é sensível a atributos com um número grande de valores. A entropia para esses atributos é muito pequena e consequentemente não ajuda no processo de selecção dos atributos mais importantes. Para evitar esta limitação, foi criada uma extensão do ID3, o algoritmo C4.5 .

O algoritmo C4.5 resolve o problema da entropia usando outra propriedade estatística deno-minada ganho de informação. O ganho de informação mede o quão correcto é que um conjunto de amostras é dividido noutro conjunto tendendo a uma determinada classe.

2.3.3.2 Clustering

Clustering(agrupamento) é uma técnica de modelação de dados que se baseia na construção de clusters. Clusters são datasets que gozam da seguinte propriedade: os elementos pertencentes a um mesmo conjunto apresentam maior semelhança entre si que os elementos pertencentes a qualquer outro conjunto, com relação a um certo critério de similaridade [LdR05]. Na Figura

2.9 é apresentado um exemplo de um clustering. Na sub-figura2.9aencontra-se um dataset de entrada, onde cada elemento é representado pelo símbolo ’x’. Na sub-figura2.9bpode-se ver o resultado após a realização do clustering sobre o dataset inicial. Como se pode verificar, a cada elemento ’x’ foi atribuído um identificador do conjunto final pertencente.

(a) Dataset de entrada (b) Resultado do clustering com 7 clusters.

Figura 2.9: Técnica de clustering. Os dados que pertencem a um mesmo cluster apresentam o mesmo rótulo [JMF99].

(37)

As técnicas de clustering podem ser divididas em dois principais conjuntos de algoritmos existentes:

Figura 2.10: Taxonomia para as diferentes técnicas de clustering [JMF99].

2.3.3.2.1 Algoritmos de clustering hierárquicos

Este tipo de algoritmos, tal como o nome indica, constroem uma hierarquia de clusters, ou seja, uma árvore de clusters. Nesta árvore, cada cluster pode conter outros clusters filhos. Se um cluster não tiver nenhum filho é denominado uma folha da árvore. Os algoritmos single-link [SS+73] e complete-link [Kin67] são os algoritmos mais populares, mas existe ainda o average link.

O algoritmo single-link inicia-se com todos os padrões como clusters individuais e à medida que este é executado vai recursivamente agrupando-os. A principal característica deste algortimo é o cálculo da distância entre 2 clusters como sendo a menor das distâncias existentes entre todos os pares de padrões pertencentes aos 2 clusters. Este algoritmo resume-se nas seguintes etapas:

• Definição de cada padrão como sendo um cluster;

• Construção de uma lista com as distâncias entre padrões para todos os pares de padrões;

• Ordenação da lista por ordem crescente de distâncias;

• Para cada valor ck da lista de distâncias, constrói uma grafo nos quais os pares de padrões cujos valores são mais próximos de cksão conectados por uma aresta;

• Se todos os padrões pertencem a um grafo conexo o processo termina. Caso contrário repetem-se todos os passos do início.

(38)

(a) Cada padrão definido como um cluster (b) Resultado do clustering com 7 clusters.

Figura 2.11: Árvore obtida após aplicação do algoritmo de clustering hierárquico single-link.

Exemplo de um algoritmo single-link muito utilizado na criação de árvores filogenéticas é o Neighbor Joining[SN87]. Este método de aglomeração requer como input uma matriz de distân-cias. As árvores geradas por este algoritmo não têm raíz. O algoritmo inicia-se com uma árvore não resolvida, com uma topologia correspondente à rede estrela e itera sobre os passos seguin-tes até que todas variáveis da matriz de distância estejam presenseguin-tes e sejam conhecidos todos os comprimentos das ramificações.

• É calculada uma matriz Q, tal que:

Q(i, j) = (n − 2)d(i, j) − n

∑

k=1 d(i, k) − n

∑

k=1 d( j, k)

em que d(i, j) corresponde à distância entre a varíavvel i e j e n o número de variáveis presentes na matriz distância fornecida.

• Encontrar o menor valor de Q(i,j) tal que i 6= j. As variavéis i e j formam um novo nó que está conectado ao nó central da árvore.

• É calculada uma nova distância do par gerado (i,j) ao nó adicionado. Considerando u o novo nó criado na árvore e f e g o par de folhas correspondentes, a nova distância pode ser calculada através da seguinte expressão:

δ ( f , u) =1 2d( f , g) + 1 2(n − 2)[ n

∑

k=1 d( f , k) − n

∑

k=1 d(g, k)] δ (g, u) = d( f , g) − δ ( f , u)

• Calcular a distância de todas as variáveis, que não pertencam a par anterior, ao novo nó u através da expressão:

δ (u, k) =1

2[d( f , k) + d(g, k) − d( f , g)] 18

(39)

em que u corresponde ao novo nó adicionado, k é o nó que pretendemos calcular a distância e f e g são os membros do novo par que se juntou ao nó.

O algoritmo complete-link, à semelhança do anterior, também se inicia com os clusters indi-viduais, os quais vão sendo agrupados recursivamente à medida que o algoritmo é executado. A diferença em relação ao anterior reside no processo de concatenação, a distância calculada entre 2 clusters agora é a maior das distâncias existentes em dois clusters. As diferentes etapas deste algoritmo são iguais às do anterior excepto na ordenação da lista de distâncias que agora contém a maior distância entre 2 clusters.

O método average linking clustering ou também Unweighted Pair-Group method with arith-metic mean(UPGMA) é o método de aglomeração mais simples para a construção de árvores. Tal como os métodos de clustering hierárquico abordados anteriormente, este também requer uma matriz de distâncias. Ao contrário do algoritmo Neighbor Joining, este constrói uma árvore com raíz (dendograma). Este algoritmo resume-se nas seguintes etapas:

• É seleccionado da matriz o par de variavéis com menor distância entre eles e são agrupados num cluster que corresponde a um nó no dendograma

• É calculada a distância do novo nó u que contém o par de variáveis i e j através da seguinte expressão:

δ (i, j) = δ ( j, i) =d(i, j) 2

• A matriz de distância é actualizada e reduzida numa linha e numa coluna resultante do clusteringdas variáveis i e j. As distâncias da matriz são atualizadas calculando a média das distâncias do cluster anterior (i, j) e cada uma das outras variáveis da matriz.

• Se i e j forem as 2 últimas variáveis na matriz o algoritmo termina, senão volta à primeira iteração criando outro nó.

2.3.3.2.2 Algoritmos de clustering particionais

Ao contrário dos algoritmos hierárquicos em que é construída uma árvore de clustering, os algoritmos particionais constroem uma partição simples dos padrões. Este tipo de algoritmos apresenta vantagem nas aplicações que envolvem uma grande quantidade de conjuntos. Este tipo de algoritmos produzem frequentemente os clusters através da optimização de uma função.

Os algoritmos de clustering Graph Theoretic baseiam-se na teoria de grafos para o seu fun-cionamento. O melhor algoritmo deste tipo é baseado na construção de uma Minimum Spanning Tree (MST) que liga um conjunto de padrões em que as arestas representam a maior distância euclidiana entre os mesmo [Zah71].

(40)

Figura 2.12: Ilustração da identificação de arestas com a maior distância euclidiana no algoritmo de clustering Graph Theoretic.

Após a criação da MST são removidas as arestas com maior valor para serem gerados os clusters.

Os algoritmo de clustering k-means utliza uma função para dividir um conjunto de padrões. A função mais frequentemente optimizada neste algoritmo é a função square-error, dada pela equação: e2(X , L) = K

∑

j=1 nj

∑

i=1 ||xi( j)− cj|| 2 (2.9)

O valor xi( j)é o i-ésimo padrão pertencente ao j-ésimo cluster e cj é o centróide do j-ésimo cluster. X representa o conjunto de padrões e K o número de clusters pretendidos. Resulta um clustering L.

Figura 2.13: Distância entre os pontos dos vários clusters e o respectivo centróide, no qual se baseia o algoritmo k-means.

É a partir da fórmula da equação 2.9 que o algoritmo k-means se baseia. As etapas deste algoritmo são:

• Escolhe k centros de clusters para coincidir com k padrões escolhidos de forma aleatória; • Atribui cada padrão ao centro do cluster mais próximo;

(41)

• Recomputa os centros dos clusters usando os padrões actualmente existentes nesses clusters; • Volta à 2a_{etapa até o critério de convergência ser alcançado.}

Os critérios de paragem mais comuns neste algoritmo são a ocorrência de um decréscimo mínimo da função e ou a não re-atribuição de um padrão a um novo cluster.

Este algoritmo é muito popular porque tem uma implementação fácil e a sua complexidade é O(n) em que n corresponde ao número de padrões, contudo é sensível à selecção das divisões iniciais.

2.3.3.3 Matriz de distâncias

Para a criação de árvores através de métodos de aglomeração de clustering hierárquico é ne-cessário fornecer a priori uma matriz de distância. Esta matriz contém as distâncias, aos pares, de um conjunto de pontos ou variáveis. Estas matrizes podem representar, por exemplo, a distância entre os vértices de um grafo ou então as não similaridades entre tecidos.

Existem vários índices para medir a similaridade ou distância entre objectos. Estes índices são úteis para expressar a diferença entre pares de amostras de uma população.

O índice de Jaccard é utilizado para calcular distâncias em matrizes de presência-ausência, ou seja, matrizes binárias.

Sejam x = (x1, x2, ..., xn) e y = (y1, y2, ..., yn) tal xi, xj≥ 0, o índice de similaridade de Jaccard é calculado por: J(x, y) = ∑imin(xi, yi) ∑imax(xi, yi) (2.10) e a distância de Jaccard: dJ(x, y) = 1 − K(x, y), dJ ∈ [0, 1] (2.11) 2.3.3.4 R - Linguagem de Programação

O R é um sistema para computação de estatísticas e gráficos [Tea00]. Destaca-se por fornecer uma linguagem de programação própria, um ecossistema rico em bibliotecas para geração de gráfi-cos e análises estatísticas, uma grande comunidade e ainda a possibilidade de interface com outras linguagens de programação. Esta linguagem já contém implementada, por exemplo, algoritmos de clustering hierárquico UPGMA e NJ utilizados na análise, pacotes para a geração de árvores, dendogramas e gráficos, bem como métodos disponíveis para calcular matrizes de distâncias utili-zando diferentes índices, mais especificamente o índice de Jaccard abordado anteriormente. Esta ferramenta poderosa é um auxílio para os demais cálculos estatísticos, evitando a necessidade de voltar a implementar algoritmos já conhecidos e que se encontram optimizados.

(42)

(43)

Capítulo 3

Implementação

A implementação deste trabalho compreende diferentes etapas. Neste capítulo são menciona-das e abordados os detalhes de implementação menciona-das mesmas. Como etapas deste trabalho destacam-se a extracção de dados de destacam-sequenciação de RNA (RNA-Seq), a sua filtragem, o cálculo de correla-ções entre os pares de genes, o posterior enriquecimento e visualização das redes de tecidos, a sua análise topológica e por fim a análise biológica dessas mesmas redes de forma interactiva através de uma plataforma web (Figura (3.1).

(44)

Implementação

Figura 3.1: Fases principais da implementação deste trabalho.

(45)

Implementação

3.1 Extracção de dados

Numa primeira etapa, foi implementado um parser responsável por ler a informação gerada pelos RNA-Seq e colocá-la numa estrutura adequada ao problema. Separou-se a informação de todos os tecidos que se encontrava contida num ficheiro único com a extensão .gct em vários ficheiros, cada um representando um tecido diferente. Os tecidos com um número de amostras inferior a 10 são, a priori, excluídos da extração e não fazem parte do conjunto de resultados gerado pelo parser.

1 ##NUMERO_GENES NUMERO_SAMPLES

2 56318 286

3 ##GENE SAMPLE1 SAMPLE2 ... SAMPLE286

4 DDX11L1 0.0397965013980865 0.0611212588846684 ... 0

5 RP5-857K21.1 0.0614116229116917 0.0554628632962704 ... 0.100065223872662

6 (...)

7 MTND1P23 10.0158805847168 22.8889236450195 ... 12.4281549453735

Listing 3.1: Exemplo ficheiro output após extração dos dados.

Este parser encontra-se implementado em c++ gozando da rapidez e performance que esta linguagem permite em operações I/O (Input/Output) de ficheiros.

3.2 Filtragem de dados e correlacão entre pares de genes

Como o objectivo era o estudo de pares de genes em que ambos são genes mitocondriais ou em que pelo menos um dos genes é mitocondrial e o outro codifica uma proteína, foi fornecido a prioria base de dados Mitocarta que contém uma colecção de 1158 genes que codificam proteínas mitocondriais e um ficheiro (no formato .gtf ) com informações detalhadas do genoma humano ba-seado em evidências, nomeadamente a posição em que os genes se encontram, qual o cromossoma a que pertence, se codificam proteínas etc.

Através da informação da Mitocarta foi possível filtrar as interações de interesse em que pelo menos um dos genes codifica uma proteína mitocondrial.

O facto de dois genes poderem estar sobrepostos numa determinada posição do cromossoma pode levar a uma correlação de expressão falsamente positiva entre os mesmos. Para evitar a sobreposição de genes, foram determinadas quais as combinações de genes sobreponíveis com base no ficheiro em formato .gtf que contém informações do genoma humano nomeadamente a posição em que os genes se encontram, qual o cromossoma a que pertence, se codificam proteínas etc. Foi gerado um ficheiro para cada cromossoma de forma a permitir a paralelização.

Para aglomerar todas as listas resultantes de cada cromossoma num único ficheiro, foi desen-volvido um bash script, resultando apenas um ficheiro com toda a informação.

(46)

Implementação 2 CYC1 PCBD2 3 CYC1 SLC35A4 4 CYC1 WWC1 5 CYC1 FARS2 6 (...) 7 PDHA1 PREP

Listing 3.2: Excerto de output gerado após identificação de pares de genes sobrepostos. Uma vez preparada e filtrada a informação, foram calculadas as correlações de Pearson en-tre os pares de genes através da leitura dos ficheiros resultantes da fase anterior. Além da fil-tragem ocorrida na fase anterior, foi utilizada uma técnica de remoção de outliers baseada no cálculo do desvio padrão. Se em determinada correlação os valores não respeitarem o intervalo [ux− 4SD, ux+ 4SD] ou [uy− 4SD, uy+ 4SD], em que SD corresponde ao desvio padrão (standard deviation), esse valores são excluídos da amostra. Desta etapa resultam 3 ficheiros por tecido correspondentes às correlações fortemente negativas (CX,Y < −0, 7), correlações fortemente posi-tivas (CX,Y > 0, 7) com genes sobrepostos e correlações fortemente positivas sem sobreposição de genes.

1 ##GENE_MITOCONDRIAL GENE_CODIFICA_PROTEINA CORRELACAO

2 CYC1 CDK16 0.705952 3 CYC1 HSD17B10 0.803689 4 CYC1 NAA10 0.711389 5 SDHB AURKAIP1 0.722465 6 SDHB PARK7 0.705339 7 SDHB MRPS15 0.703715 8 (...) 9 SDHB UQCRH 0.816855

Listing 3.3: Excerto de output gerado após o cálculo de correlações e filtragem dos dados de interesse.

3.3 Enriquecimento dos dados

Para que a análise dos dados não seja apenas de natureza topológica foi feito um enriqueci-mento dos dados com informação biológica, nomeadamente a identificação das pathways a que os genes pertencem. A informação provém das bases de dados Kyoto Encyclopedia of Genes and Genomes (KEGG)e Gene Ontology (GO). Como já foi mencionado anteriormente, a informação pode incidir sobre processos biológicos, componentes celulares ou funções moleculares.

1 KEGG_GLYCOLYSIS_GLUCONEOGENESIS http://www.broadinstitute.org/gsea/msigdb/cards/

2 KEGG_GLYCOLYSIS_GLUCONEOGENESIS ACSS2 GCK PGK2 PGK1 PDHB PDHA1 ... PGAM2

3 (...)

(47)

Implementação

4 KEGG_VIRAL_MYOCARDITIS http://www.broadinstitute.org/gsea/msigdb/cards/

5 KEGG_VIRAL_MYOCARDITIS CASP9 LOC100418883 CASP8 HLA-DOA HLA-DOB CD80 CD86 CD28 EIF4G3 ITGAL ICAM1 CXADR MYH13 ... HLA-G

Listing 3.4: Exemplo de ficheiro input com informação biológica da base de dados KEGG. O programa desenvolvido verifica se os genes estão contidos em alguma pathway e acrescenta essa informação ao ficheiro gerado na fase anterior (3.3). Como resultado deste enriquecimento, são gerados 4 novos diretórios cada um correspondente à utilização de uma base de dados dife-rente. A separação em 3 diretórios com a base de dados Gene Ontology (GO) foi propositada, uma vez que faz sentido para o tipo de análise desejada ter as sub-ontologias separadas, pois a infor-mação é redundante. De salientar que é possível enriquecer os dados com inforinfor-mação de outras bases de dados desde que estas respeitem o formato .gmt.

1 ##GENE_MITO GENE_PROT Correlation PathwayList PathwayList

2 CYC1 HSD17B10 0.803689 KEGG_ALZHEIMERS_DISEASE, KEGG_VALINE_LEUCINE_AND_ISOLEUCINE_DEGRADATION

3 IARS2 NDUFS1 0.724112 KEGG_AMINOACYL_TRNA_BIOSYNTHESIS,

KEGG_VALINE_LEUCINE_AND_ISOLEUCINE_BIOSYNTHESIS KEGG_ALZHEIMERS_DISEASE, KEGG_HUNTINGTONS_DISEASE,KEGG_OXIDATIVE_PHOSPHORYLATION,KEGG_PARKINSONS_DISEASE

4 (...)

5 SDHB PARK7 0.705339 KEGG_PARKINSONS_DISEASE

Listing 3.5: Resultado do enriquecimento biológico dos tecidos.

3.4 Geração e análise de redes de genes correlacionados

Após a estruturação dos dados de forma adequada ao problema e o cálculo de correlações entre os genes constituintes dos tecidos, estes foram integrados em forma de redes de interacção. Foi utilizado o Cytoscape[SMO+03] para a integração dos dados, visualização e posterior análise topológica destas redes. Seja G um grafo simples que representa as interacções presentes num tecido:

G= (V, E) (3.1)

V representa o conjunto de todos os genes existentes na rede do tecido e E o conjunto de interac-ções entre genes tendo como peso associado a correlação entre os mesmos (Figura3.2).

Através do Cytoscape foram feitas análises topológicas das redes, destacando-se o conheci-mento do grau de todos os vértices dos grafo (nós), a centralidade (betweenness centrality) dos mesmos e ainda a informação do número total de genes e interacções presentes nas redes de te-cidos. O grau de um vértice representa o número de vértices que ele está conectado diretamente enquanto o valor betweenness centrality representa o número de caminhos mais curtos de todos os nós para quaisquer outros nós que passem pelo vértice. Estas medidas são indicadores importantes em redes biológicas uma vez que indicam que o gene (vértice) pode ter uma função importante na

(48)

Implementação

rede. Após a análise topológica das redes efectuadas pelo Cytoscape, os dados foram exportados para serem utilizados como input em posteriores análises de pathways. Num primeiro passo são produzidas listagens de todas as interacções presentes nas redes (Exemplo3.6).

1 ##TECIDO GENE_MIT PATHWAY GENES_CORRELACIONADOS

2 Adipose_Visceral_Omentum ATP5B KEGG_ALZHEIMERS_DISEASE ATP5A1,SDHB

3 Adrenal_Gland OGDHL KEGG_TRYPTOPHAN_METABOLISM DDC

4 Brain_Amygdala UQCRC1 KEGG_HUNTINGTONS_DISEASE CYC1,NDUFV1

5 (...)

6 Whole_Blood ATP5D KEGG_OXIDATIVE_PHOSPHORYLATION NDUFS7,NDUFS8

Listing 3.6: Listagem de interacções presentes nas redes de todos os tecidos para a base de dados KEGG.

Figura 3.2: Detalhe da rede do tecido Adipose - Subcutaneous com 2310 nós e 12282 arestas. Quanto menor a transparência das arestas mais forte a correlação entre os genes. Quanto maior o tamanho do vértice, maior o seu valor de Betweenness Centrality.

Em seguida, são geradas matrizes binárias com informação de presença e ausência de pathways dos tecidos. Seja A uma matriz binária para cada uma das quatro bases de dados biológicas, tal

(49)

Implementação que: A=       a₁₁ a₁₂ ... a_1n a21 a22 ... a2n ... ... . .. a3n am1 am2 ... amn       , (ai j) ∈ { 0, 1}m∗n (3.2)

mcorresponde ao número de tecidos existentes para análise e n ao número de pathways exis-tentes na base de dados. O valor de ai j é 0 quando a rede do tecido i não contém a pathway j em nenhuma das suas interações ou 1 quando a rede do tecido i contém pelo menos uma interacção com a pathway j.

Calculou-se a matriz de distância de A através do método vegdist do pacote vegan da lingua-gem R, juntamente com o índice de Jaccard (Listalingua-gem3.7). Já que a matriz de entrada é uma matriz binária e contém informação de presença e ausência, considerou-se a utilização do índice de Jaccard para o cálculo das distâncias o mais adequado.

1 distance_matrix <- vegdist(A, method = "jaccard")

2 3 ##UPGMA 4 hc <- hclust(distance_matrix, method="average") 5 6 ##Neighbor Joining 7 neighbor_joining <- nj(distance_matrix)

Listing 3.7: Métodos e parâmetros utilizados na realização do clustering.

Foi feita uma análise qualitativa dos tecidos recorrendo à técnica de data mining de clustering hierárquico a partir da matriz de distâncias da fase anterior, através de 2 métodos de aglomeração. Recorrendo ao método Unweighted Pair Group Method with Arithmetic Mean (UPGMA) utili-zando a função hclust e ao método Neighbor Joining (NJ) utiliutili-zando a função nj do pacote ape (Listagem3.7). Posteriormente, geraram-se árvores para os dois métodos como forma de visuali-zação dos resultados representando os tecidos mais similares entre si consoante as pathways que têm em comum (Listagem3.8e Figura3.3). Estas árvores são exportáveis em formato imagem e newick(formato que usa correspondencia entre árvores e parêntesis) e representam exactamente a mesma informação. Na árvore (Figura3.8) é possível observar que os tecidos estão coloridos de acordo ao grupo/sistema a que pertencem, por exemplo, os tecidos pertencentes ao sistema nervoso encontram-se coloridos a violeta.