FUNDAÇÃO OSWALDO CRUZ INSTITUTO AGGEU MAGALHÃES MESTRADO ACADÊMICO EM BIOCIÊNCIAS E BIOTECNOLOGIA EM SAÚDE JOÃO LUIZ DE LEMOS PADILHA PITTA

(1)

FUNDAÇÃO OSWALDO CRUZ INSTITUTO AGGEU MAGALHÃES

MESTRADO ACADÊMICO EM BIOCIÊNCIAS E BIOTECNOLOGIA EM SAÚDE

JOÃO LUIZ DE LEMOS PADILHA PITTA

PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E

INVERTEBRADOS

RECIFE 2018

(2)

INVERTEBRADOS

Dissertação apresentada ao Curso de Mestrado Acadêmico em Biociências e Biotecnologia em Saúde do Instituto Aggeu Magalhães, Fundação Oswaldo Cruz, como um dos requisitos para a obtenção do título de Mestre em Ciências.

Orientador: Dr. Antonio Mauro Rezende Coorientador: Dr. Gabriel da Luz Wallau

RECIFE 2018

(3)

Catalogação na fonte: Biblioteca do Centro de Pesquisas Aggeu Magalhães

P688p Pitta, João Luiz de Lemos Padilha.

Predição in silico de redes de interação proteica interespécie entre Zika vírus e seus hospedeiros vertebrados e invertebrados / João Luiz de Lemos Padilha Pitta. - Recife: [s.n.], 2018.

69 p. : ilus.

Dissertação (Mestrado em Biociências e Biotecnologia em Saúde) - Instituto Aggeu Magalhães, Fundação Oswaldo Cruz.

Orientador: Antonio Mauro Rezende. Coorientador: Gabriel da Luz Wallau.

1. Zika virus. 2. Aprendizado de máquina. 3. Proteoma. I. Rezende, Antonio Mauro. II. Wallau, Gabriel da Luz. III. Título.

(4)

INVERTEBRADOS

Dissertação apresentada ao Curso de Mestrado em Biociências e Biotecnologia em Saúde do Instituto Aggeu Magalhães, Fundação Oswaldo Cruz, como um dos requisitos para a obtenção do título de Mestre em Ciências.

Aprovada em: 01/10/2018

BANCA EXAMINADORA

________________________________________________ Dr. Antonio Mauro Rezende

Instituto Aggeu Magalhães/FIOCRUZ-PE

________________________________________________ Dr. Rafael Freitas de Oliveira França

Instituto Aggeu Magalhães/FIOCRUZ-PE

________________________________________________ Dra. Flávia Figueira Aburjaile

(5)

AGRADECIMENTOS

Muitas pessoas contribuíram das mais diversas formas para a realização deste trabalho, mas em especial faço os seguintes agradecimentos:

Aos meus orientadores Antonio Rezende e Gabriel Wallau por aceitarem o desafio de orientar um aluno vindo de outra área do conhecimento e por toda a disponibilidade, ensinamentos e paciência fundamentais para a conclusão do curso.

A Beatriz Toscano por toda a ajuda nas disciplinas, todo o material de estudo para a seleção do mestrado, toda a paciência para responder perguntas, toda atenção e amizade que foram muito importantes dentro e fora do mestrado. Tenho uma dívida eterna.

A Crhisllane Vasconcelos, a primeira de seu nome, por toda a ajuda com ferramentas e códigos, eternas discussões sobre meu projeto e ciência em geral além da amizade sempre regada com café. Outra dívida que não vou conseguir pagar.

A Túlio Campos por toda a ajuda com R e machine learning.

A Larissa Paiva por todo o incentivo dado para ingressar no nível superior, toda a torcida ao longo da graduação e durante o mestrado. Vou carregar tudo sempre com muito carinho.

A Josane Lemos por ter feito todo o possível para que eu tivesse acesso a uma boa educação e conseguisse me desenvolver como pessoa e profissional.

Aos amigos Michelle Barros, Rodrigo Loyo, Lays Trajano, Carol Luz, Morgana Costa, Larissa Maciel, Camila Fernandes e Virgínia Lorena.

(6)

Às minhas colegas de turma 2016.2, Marjorie Freire, Iany França, Yury Yzabella e Marcela Melo por todo o apoio e troca de informações ao longo desses dois anos.

A Marcelo Lima por viabilizar meus horários de trabalho para que fosse possível frequentar as disciplinas do curso.

A Aldrey Galindo e Igor Oliveira, pela amizade e ajuda com shell script, fundamentais em vários momentos ao longo do projeto.

Aos membros da banca examinadora que gentilmente aceitaram o convite para contribuir neste trabalho.

Ao Instituto Aggeu Magalhães – Fiocruz-PE pelos recursos para o desenvolvimento deste trabalho e a todos os seus funcionários pelo suporte científico.

(7)

PITTA, João Luiz de Lemos Padilha. Predição in silico de redes de interação proteica interespécie entre Zika vírus e seus hospedeiros vertebrados e invertebrados. 2018. Dissertação (Mestrado Acadêmico em Biociências e Biotecnologia em Saúde) – Instituto Aggeu Magalhães, Fundação Oswaldo Cruz, Recife, 2018.

RESUMO

O ZIKA vírus (ZIKV) é um membro da família Flaviviridae, isolado pela primeira vez na década de 40 e que foi negligenciado por autoridades de saúde e pela ciência durante várias décadas. A recente epidemia mundial, conforme declarada pela Organização Mundial de Saúde (OMS) em fevereiro de 2016, e o aumento do número de casos de microcefalia e síndrome de Guillain-Barré (SGB) associados ao ZIKV colocaram o mesmo em evidência. Entender os mecanismos moleculares da infecção viral nos diversos hospedeiros é necessário para o desenvolvimento de tratamentos e medidas preventivas. As abordagens experimentais apresentam várias dificuldades para este tipo de estudo quando aplicadas em larga escala, fazendo com que os métodos computacionais surjam como importantes ferramentas de auxílio às abordagens tradicionais. As interações proteína-proteína (ou PPI, do acrônimo inglês Protein-Protein Interactions) podem ser usadas para estudar os mecanismos da infecção viral. Através do uso de algoritmos de aprendizado de máquinas, como Random Forest, aplicados aos proteomas investigados neste estudo, predições de interações proteicas entre ZIKV e seus diversos hospedeiros foram realizadas. Este estudo mostrou que a metodologia aqui empregada trouxe níveis de predição semelhantes à outras abordagens, porém foi aplicado à vários hospedeiros. Foi possível demonstrar em grafos bipartidos a importância das proteínas virais associadas a mecanismos de escape imunológico ou na transmissão do vírus por vetores, baseado nos números de interações realizadas e indicar possibilidades de malformação no sistema nervoso, especialmente na fase embrionária, em outras espécies além do H. sapiens.

(8)

PITTA, João Luiz de Lemos Padilha. In silico prediction of interspecies protein interaction networks between Zika virus and their vertebrate and invertebrate hosts 2018. Dissertation (Academic Master in Bioscience and Biotechnology for Health) – Aggeu Magalhães Research Center, Oswaldo Cruz Foundation, Recife, 2018.

ABSTRACT

The ZIKA virus (ZIKV) is a member of the Flaviviridae family, first isolated in the 1940s and neglected by health authorities and science for several decades. The recent global epidemic, as declared by the World Health Organization (WHO) in February 2016, and the increase in the number of cases of microcephaly and Guillain-Barré syndrome (GBS) associated with ZIKV have made the same. Understanding the molecular mechanisms of viral infection in various hosts is necessary for the development of preventive treatments and measures. Experimental approaches present several difficulties for this type of study when applied on a large scale, making computational methods appear as important tools to aid traditional approaches. Protein-protein interactions (or PPI) can be used to study the mechanisms of viral infection. Through the use of machine learning algorithms, such as Random Forest, applied to the proteomes investigated in this study, predictions of protein interactions between ZIKV and its several hosts were performed. This study showed that the methodology used here brought prediction levels similar to other approaches, but it was applied to several hosts. It was possible to demonstrate in bipartite graphs the importance of viral proteins associated with immune escape mechanisms or virus transmission by vectors based on the number of interactions performed and indicate possibilities of malformation in the nervous system, especially in the embryonic phase, in other species besides H. sapiens.

(9)

LISTA DE ILUSTRAÇÕES

Figura 1 - Representação do genoma do Zika Vírus ... 16

Figura 2 - Estrutura icosaédrica do envelope do ZIKV ... 17

Figura 3 - Lacunas de conhecimento do ZIKV ... 18

Figura 4 - Visão geral de algoritmos de aprendizado de máquina ... 24

Figura 5 - Representação do Hiperplano de Classificação ... 25

Figura 6 - Visão geral dos algoritmos de aprendizado de máquina do tipo Random Forest ... 26

Figura 7 - Estrutura inicial do banco de dados ... 33

Figura 8 - Modelo de obtenção de pares negativos ... 36

Figura 9 - Fórmula de Normalização ... 39

Figura 10 - Montagem do arquivo de grupo controle para treinamento ... 40

Figura 11 - Resultado da primeira validação do algoritmo de Random Forest ... 48

Figura 12 - Resultado da segunda validação do algoritmo de Random Forest ... 48

Figura 13 - Resultado da terceira validação do algoritmo de Random Forest ... 49

Figura 14 - Resultado da validação com validação cruzada de 10 vezes ... 49

(10)

LISTA DE QUADROS

Quadro 1 – Espécies estudadas e respectivas bases de dados ... 31 Quadro 2 – Aminoácidos agrupados pelas características físico-químicas ... 39 Quadro 3 – Principais dados de enriquecimento encontrados ... 53

(11)

LISTA DE TABELAS

Tabela 1 – Números de pares analisados pelo modelo ... 50 Tabela 2 – Espécies estudadas e respectivos números de interações preditas ... 50 Tabela 3 – Números de proteínas virais de cada cepa preditas por espécie ... 52

(12)

LISTA DE ABREVIATURAS E SIGLAS

AUC - Area Under the Curve CHIKV - Chikungunya

CSV - Comma-Separated Values

DAVID - Database for Annotation, Visualization and Integrated Discovery

DENV - Dengue Vírus

OMS - Organização Mundial de Saúde

ORF - Open Reading Frame

Pb - Pares de base

PPI - Protein-Protein Interaction SGB - Síndrome de Guillain-Barré

SGBD - Sistema de Gerenciamento de Banco de Dados

SQL - Structured Query Language

SVM - Support Vector Machine UTR - Untranslated region WNV - Vírus do Oeste do Nilo ZIKV - Zika Vírus

(13)

SUMÁRIO 1 INTRODUÇÃO ... 12 2 REFERENCIAL TEÓRICO ... 15 2.1 Zika Vírus ... 15 2.2 Hospedeiros Vertebrados ... 19 2.3 Hospedeiros Invertebrados ... 20

2.3.1 Mosquitos do gênero Aedes ... 20

2.3.2 Culex quinquefasciatus ... 21

2.4 Métodos de predição de interações de proteínas in silico. ... 22

3 JUSTIFICATIVA ... 27 4 PERGUNTA CONDUTORA ... 28 5 HIPÓTESE ... 29 6 OBJETIVOS ... 30 6.1 Objetivo Geral ... 30 6.2 Objetivos Específicos ... 30 7 MATERIAIS E MÉTODOS ... 31 7.1 Obtenção de dados ... 31

7.2 Banco de dados do projeto ... 33

7.2.1 Tabela de interações positivas ... 34

7.2.2 Tabela de proteomas ... 34

7.2.3 Tabela de resultados do alinhamento ... 35

7.2.4 Tabela interações negativas ... 35

7.3 Treinamento dos Algoritmos ... 37

7.3.1 Carga de dados para o RStudio... 38

7.3.2 Extração de características físico-químicas ... 38

7.3.3 Divisão de grupos de treinamento e teste ... 40

7.3.4 Treinamento dos algoritmos ... 41

7.3.5 Validação cruzada ... 41

7.4 Classificação dos pares de proteínas ... 42

7.4.1 Preparação de dados para classificação por Random Forest ... 43

7.4.2 Predições e armazenamento de resultados ... 43

7.5 Modelagem da rede de interações ... 43

(14)

8 CONSIDERAÇÕES ÉTICAS ... 45

9 RESULTADOS ... 46

10 DISCUSSÃO ... 54

11 CONCLUSÕES ... 58

(15)

1 INTRODUÇÃO

Atualmente existem aproximadamente 80 espécies de arbovírus que possuem a capacidade de infectar os seres humanos. Estes vírus possuem como vetor espécies de artrópodes em sua maioria pertencentes à família Culicidae, sendo as espécies pertencentes aos gêneros Aedes e Culex as mais associadas à transmissão de arbovírus. Os arbovírus patogênicos produzem anualmente um grande impacto para a saúde humana em países tropicais, como exemplo disso, podemos citar os casos sazonais de Dengue (DENV). Além disso, novos arbovírus estão emergindo constantemente como o vírus Zika (ZIKV), Chikungunya (CHIKV) e Vírus do Oeste do Nilo (WNV).

Recentemente, a partir de 2015, o vírus ZIKV ganhou grande destaque devido ao grande número de infecções no Brasil, e também devido aos graves problemas de saúde produzidos e relacionados à sua infecção, notoriamente a Síndrome de Guillain-Barré e os casos de microcefalia em recém-nascidos. O crescimento rápido do número de casos e os sérios problemas de saúde relacionados à infecção do ZIKV levaram a Organização Mundial da Saúde (OMS) a declarar, no dia 1 de fevereiro de 2016, o ZIKV como um problema de saúde mundial, tendo sido reportados até aquele momento mais de 4.000 casos de microcefalia em recém-nascidos e desordens neurológicas em pacientes residentes em áreas mais afetadas pelo vírus.

Em relação a biologia do ZIKV, este é um vírus de RNA fita simples senso positivo pertencente ao gênero Flavivirus, com genoma de 10794 pb que codifica uma poliproteína de aproximadamente 3400 aminoácidos. Em sua fase madura, a poliproteína é clivada em três proteínas estruturais e sete não estruturais.

Agências de saúde e institutos de pesquisa de vários países desenvolveram muitos trabalhos sobre a temática, analisando inicialmente as fortes evidências clínicas que ligavam a infecção por ZIKV ao desenvolvimento da microcefalia. Foram investigadas também as possibilidades de transmissões do vírus por via sexual em humanos, entre animais domésticos e humanos e outros possíveis vetores além dos já conhecidos. Vários desses estudos conseguiram comprovar ou refutar essas possibilidades, mas ainda existem diversas lacunas no conhecimento e a necessidade de se aprofundar o entendimento dos mecanismos moleculares que levam ao surgimento dessa patologia, isto é, quais proteínas do vírus e dos vários hospedeiros

(16)

possíveis que estão envolvidas nesse processo. A partir desse entendimento será possível elaborar ou aprimorar as estratégias mais eficientes de combate à esta patologia.

Em relação aos vetores do ZIKV, a primeira vez que este vírus foi isolado em um mosquito, este pertencia a espécie Aedes africanus. Atualmente há um consenso no meio acadêmico e agências de saúde sobre a espécie Aedes aegypti como principal vetor do vírus, contudo insetos culicídeos de outras espécies podem estar envolvidos na transmissão do ZIKV e precisam ser investigados, visto que outros surtos fora do território brasileiro já ocorreram no passado, inclusive em regiões com ausência do mosquito A. aegypti. Para um efetivo controle da transmissão deste vírus, é importante identificar os vetores de importância epidemiológica, e quais os mecanismos moleculares utilizados pelo vírus para infectar seus hospedeiros invertebrados. Desta forma, será possível também elaborar estratégias para atacar diretamente os vetores de maior importância e influenciar no curso da infecção viral dentro do mosquito. Os mecanismos moleculares de interação proteica envolvidos na infecção viral podem fornecer informações valiosas no combate à transmissão do ZIKV.

A identificação de uma interação proteica por métodos experimentais tais como técnica de duplo-híbrido, espectrometria de massa, imunopreciptação e pull-down é um processo laborioso, de custo elevado e sujeito a erros sistemáticos, principalmente quando essas técnicas são aplicadas em larga escala. Desta forma, devido a estes desafios, vários métodos computacionais estão sendo desenvolvidos com o objetivo de construir redes de interação proteica com baixo custo e de maneira eficiente para a descoberta de interações proteína-proteína com alta probabilidade, funcionando como uma ferramenta de apoio aos métodos experimentais tradicionais. Dentre estes métodos, podem ser citados os métodos de interalog-mapping, mineração de textos e métodos que utilizam algoritmos de aprendizado de máquina tais com Support Vector Machine (SVM), Artificial Neural Networks (ANN) e Random Forest. Paralelamente, a crescente disponibilidade sequências genômicas e de informações funcionais em nível transcricional (transcriptomas) e de proteínas (proteomas) tanto para humanos quanto para outros primatas e espécies de culicídeos vetores, possibilita a aplicação de metodologias do tipo “top-down”, onde as informações sobre todas as proteínas que estão sendo produzidas em um determinado momento fisiológico são utilizadas

(17)

para identificar as interações proteína-proteína críticas para o estabelecimento da infecção viral, tanto nas espécies vetoras como na espécie humana.

Portanto, neste estudo são empregados métodos computacionais para predizer interações proteicas entre o ZIKV e seus hospedeiros vertebrados (Homo sapiens e Callithrix jacchus) e invertebrados (Aedes aegypti, Aedes albopictus e Culex quinquefasciatus) utilizando dados genômicos e proteômicos existentes para estes organismos. Uma base de dados de interações conhecidas entre vírus e hospedeiros foi utilizada como dado controle para o treinamento de algoritmos de aprendizado de máquina. Esses algoritmos foram treinados com base nas propriedade físico-químicas das proteínas envolvidas nas interações do grupo controle e então aplicados na predição das interações entre as proteínas do ZIKV e hospedeiros.

(18)

2 REFERENCIAL TEÓRICO

2.1 Zika Vírus

O vírus Zika é um arbovírus conhecido desde a década de 40, mas que ganhou destaque mundial apenas nos últimos anos. O vírus foi isolado pela primeira vez a partir do sangue de macacos Rhesus na floresta Zika, no ano de 1947 em Uganda, e no ano seguinte em mosquitos da espécie Aedes africanus (DICK; KITCHEN; HADDOW, 1952; FAYE et al., 2014; SAIZ et al., 2016). Entre a descoberta do vírus em 1947 e a primeira epidemia fora da África em 2007, poucos casos de infecção por ZIKV em humanos foram reportados, e os números relatados antes de 2007 são divergentes na literatura, onde alguns autores apontam 13 casos (FRANKEL et al., 2017) enquanto outros apontam 14 casos (FAYE et al., 2014).

Após o primeiro surto em 2007, foi verificado que a infecção em humanos é assintomática em aproximadamente 80% dos casos, e que a febre, erupção cutânea, artralgia e conjuntivite são os sintomas mais comuns (SAIZ et al., 2016; ZAMMARCHI et al., 2015). A doença é autolimitada, apresenta um período de incubação em torno de 10 dias, e os sintomas costumam sumir entre 3 e 7 dias com exceção da artralgia que pode durar mais de um mês (SAIZ et al., 2016). Os sintomas mais comuns fazem com que a infecção por Zika vírus muitas vezes seja confundida com Dengue ou Chikungunya, mas os desdobramentos associados ao vírus, como a síndrome de Guillain–Barré (SGB) e microcefalia, foram os principais responsáveis por evidenciar o ZIKV. A SGB causa uma paralisia que pode levar à morte, e na epidemia de ZIKV na Polinésia Francesa, em 2007, a incidência de SGB aumentou em 20 vezes dada a incidência previamente estabelecida (OEHLER et al., 2014; SAIZ et al., 2016). Já a microcefalia é uma condição na qual o bebê nasce com a cabeça muito menor quando comparado com outros bebês da mesma idade e sexo, e pode apresentar sintomas como epilepsia, dificuldades de aprendizados e deficiências visual e auditiva (ORGANIZAÇÃO MUNDIAL DA SAÚDE, 2016).

Sobre a biologia do ZIKV, pode-se afirmar que é um arbovírus pertencente à família Flaviviridae e é caracterizado por ser um vírus de RNA fita simples senso positivo, onde o genoma é envolvido pelo capsídeo que por sua vez é recoberto pelo envelope (FAYE et al., 2014; SAIZ et al., 2016; SIROHI et al., 2016). O genoma é

(19)

relativamente pequeno, possuindo apenas 10794 pares de bases (pb), possui ainda uma estrutura CAP na extremidade 5’ e uma única fase aberta de leitura (ou ORF, acrônimo do inglês para Open Reading Frame). Além disso, ele não possui cauda poli-A na extremidade 3’ (Spoli-AIZ et al., 2016). poli-A ORF é flanqueada por duas regiões não codificantes ou untranslated region (UTR) nas extremidades 5’ e 3’ que possuem respectivamente 106 e 428 nucleotídeos (KUNO; CHANG, 2007; SAIZ et al., 2016). Uma representação do genoma da cepa PE243 do ZIKV está presente na Figura 1.

Figura 1 - Representação do genoma do Zika Vírus

Fonte: Virus Pathogen Resource (2015).

Nota: Ilustração do genoma da cepa PE243 do ZIKV. A barra em azul representa a poliproteína gerada que posteriormente é clivada nas proteínas virais. A barra amarela representa as proteínas virais em fase madura.

Assim como outros Flavivírus, o genoma do ZIKV codifica uma poliproteína que posteriormente é clivada por proteases celulares e virais em três proteínas estruturais (capsídeo, prM/M e envelope), em sete proteínas não estruturais (NS1, NS2A, NS2B, NS3, NS4A, NS4B e NS5) (SAIZ et al., 2016; SIROHI et al., 2016) e no peptídeo não estrutural 2k (GURUMAYUM et al., 2018). As proteínas estruturais formam a camada mais externa do vírus, envolvendo o genoma viral enquanto as proteínas não estruturais estão envolvidas na replicação, montagem e evasão do sistema imune (FONTES-GARFIAS et al., 2017).

As três proteínas estruturais participam do processo de montagem do vírus. O envelope é a proteína mais externa e é associado à virulência do vírus, sendo responsável por mediar a fusão do vírus com a membrana celular e consequentemente permitindo a entrada na célula por endocitose (FONTES-GARFIAS et al., 2017). Do ponto de vista morfológico o envelope é em formato icosaédrico conforme é possível observar na Figura 2.

(20)

Figura 2 - Estrutura icosaédrica do envelope do ZIKV

Fonte: Sirohi et al. (2016)

A proteína do capsídeo se associa ao RNA viral formando o núcleo do vírus (SAIZ et al., 2016). A proteína prM previne a fusão prematura do envelope antes da liberação na célula infectada e após ser clivada em proteína M promove a maturação das partículas virais (SAIZ et al., 2016).

Entre as proteínas não estruturais, pode-se destacar às proteínas NS1 e NS5, que participam do processo de replicação viral e tem importantes papeis nos mecanismos de escape do sistema imunológico (XIA et al., 2018). As demais proteínas possuem principalmente atividades relativas à replicação e montagem, como nos casos da NS2A e NS2B (YOON et al., 2017) ou atividades enzimáticas como (LIANG et al., 2016). Algumas das funções das proteínas não estruturais são inferidas por similaridade com outros flavivírus relacionados, como a indução de rearranjos de membrana associados a replicação (NS4A), imunomodulação (NS1, NS2A) ou regulação da replicação de RNA e montagem viral (NS2A).

O ciclo de replicação do ZIKV é apresentado em Saiz et al. (2016) com uma divisão em quatro etapas, sendo a primeira etapa a ligação do vírus a receptores celulares, permitindo que a partícula viral entre na célula por endocitose. O envelope viral inicia então uma fusão com a membrana do endossomo permitindo a liberação do genoma do vírus no citoplasma. O genoma é então traduzido e replicado e novas partículas virais são montadas até que são liberadas da célula para repetir o ciclo em outras células.

(21)

Dados epidemiológicos da literatura apontam para uma grande distribuição do vírus, com presença de casos na África, Ásia, Oceania, América e Europa (PAIXÃO et al., 2016). Desde o primeiro isolamento na África, casos foram reportados em vários países daquele continente ao longo dos anos, mas atualmente apenas Cabo Verde vem apresentando novos casos (SAIZ et al., 2016). Ásia e Europa apresentam poucos relatos de infecção e, especificamente na Europa, os relatos são de pessoas retornando de outros países onde existe um grande número de casos (SAIZ et al., 2016). A Oceania foi o cenário do primeiro grande surto de ZIKV com uma incidência 20 vezes maior que a esperada para casos de infecção com complicação para a SGB. Já o continente Americano foi o mais afetado nos últimos anos. Casos reportados de Zika vírus associados com SGB e casos de microcefalia congênita levaram a OMS a declarar o ZIKV como um problema de saúde pública internacional (SIROHI et al., 2016).

Várias lacunas do conhecimento sobre o ZIKV permanecem sob investigação da comunidade científica apesar de todo o conhecimento já produzido nos últimos anos. Essas lacunas recaem sobre a epidemiologia, evolução clínica, virologia, incluindo o potencial de animais domésticos e selvagens como repositórios, hospedeiros amplificadores, capacidades vetoriais, e rotas não vetoriais alternativas de transmissão (LOWE et al., 2018). A Figura 3 resume essas lacunas de conhecimento.

Figura 3 - Lacunas de conhecimento do ZIKV

Fonte: Adaptado de Lowe et al. (2018)

Nota: Ilustração de pontos que estão sob estudo em relação ao ZIKV como o papel de animais domésticos e silvestres no ciclo de transmissão viral, capacidade vetorial de outros mosquitos além do

(22)

No Brasil, especialmente no estado de Pernambuco, houve um aumento significativo de casos de microcefalia. Inicialmente o ministério da saúde adotou como critério para alerta de microcefalia recém-nascidos com 37 semanas ou mais de idade gestacional e com um perímetro cefálico menor que 33cm (SOUZA et al., 2016b). Este critério foi posteriormente alterado para um perímetro cefálico menor que 32cm, pois o critério anterior estava gerando um número excessivo de notificações sem respaldo na literatura (SOUZA et al., 2016b). Contudo, o número de casos de microcefalia em recém-nascidos ainda foi considerado muito superior quando comparado com o número de casos para o mesmo período anteriormente.

Apesar dos dados encontrados em Pernambuco, a Colômbia apresentava dados que contradiziam a associação do ZIKV com a microcefalia, visto que foram reportados mais de 5000 casos de mulheres grávidas infectadas por ZIKV, porém um único caso de microcefalia congênita (SAIZ et al., 2016). Novos estudos porém vieram a confirmar a associação entre infecção por ZIKV e o desenvolvimento de microcefalia em recém nascidos (ARAUJO et al., 2017).

2.2 Hospedeiros Vertebrados

Desde o primeiro isolamento até o primeiro surto em 2007, o Zika Vírus permaneceu infectando principalmente macacos e mosquitos, e apenas ocasionalmente infectando humanos (BUENO et al., 2016). O panorama mudou a partir do surto na Micronésia em 2007, onde vários casos de infecção passaram a ser reportados, seguido de um surto na Polinésia Francesa em 2013 e o mais recente ocorrido no Brasil a partir de 2015 (BUENO et al., 2016). Este último trouxe um grande destaque ao vírus devido aos graves impactos de saúde causados pela infecção, especialmente nos casos associados à microcefalia.

O Homo sapiens é apontado em vários estudos como um importante hospedeiro do ZIKV (AYRES, 2016; BOORMAN; PORTERFIELD, 1956; FRANKEL et al., 2017; GUEDES et al., 2017; OEHLER et al., 2014; PAVITHRA L. CHAVALI et al., 2017; SAIZ et al., 2016). Mecanismos de escape do sistema imunológico humano relacionados a mutações do ZIKV (VOSSEN et al., 2002; WELTMAN, 2016), especialmente na proteína NS1 (XIA et al., 2018), adaptações de importantes vetores virais (DYE, 1992) e falhas no controle de vetores (FORATTINI, 1995; ZARA et al.,

(23)

2016), junto com outros fatores, permitiram o surgimentos dos surtos de ZIKV em H. sapiens a partir de 2007.

O C. jacchus, pequeno primata popularmente conhecido como Sagui, encontra-se amplamente distribuído na região nordeste do Brasil onde habita os mais diversos tipos de vegetação como dunas, restingas, mangues e passando pelas várias formas de matas (úmida, seca, serrana, etc) às zonas do Agreste e das Caatingas do Sertão (SILVA; CRUZ, 1993). Apesar do surto de ZIKV de 2015 no Brasil ter casos notificados nos mais diversos estados, a maior parte esteve concentrada na região Nordeste, e o trabalho de Favoretto et al. (2016) identificou infecção por ZIKV em C. jacchus no estado do Ceará. Este estudo ainda demonstrou através de sequenciamento que o ZIKV encontrado tem 100% de identidade com vírus encontrados na América do Sul. Por fim este trabalho aponta a possibilidade do C. jacchus servir como repositório para o vírus, corroborando com outros estudos que indicam a importância de avaliar diferentes animais no ciclo do ZIKV, visto que outros estudos encontraram anticorpos para o vírus em caprinos e roedores (BUENO et al., 2016).

Os dados reportados por Favoretto et al. (2016) indicam que o estudo molecular do ZIKV em C. jacchus assim como em H. sapiens podem incrementar o entendimento dos mecanismos moleculares associados à infecção.

2.3 Hospedeiros Invertebrados

2.3.1 Mosquitos do gênero Aedes

Os mosquitos do gênero Aedes são conhecidos por serem os principais vetores de várias doenças que afetam os humanos, especialmente doenças relacionas aos Flavivírus como Febre Amarela, Dengue, Chikungunya e Zika (HUANG et al., 2014; PAIXÃO et al., 2016; POWELL; TABACHNICK, 2013).

O ZIKV já foi isolado em várias espécies do gênero Aedes como A. africanus, Aedes luteocephalus, Aedes aegypti, Aedes albopictus, Aedes furcifer e Aedes vittatus (PAIXÃO et al., 2016), sendo as espécies A. aegypti e A. albopictus consideradas as principais espécies transmissoras do ZIKV (ZARA et al., 2016).

O A. aegypti é amplamente distribuído em regiões tropicais e subtropicais e tipicamente em meios urbanos, sendo raramente encontrado em ambientes silvestres

(24)

ou com pouca presença do homem (ZARA et al., 2016). Acredita-se que o mosquito foi introduzido no Brasil durante o comércio de escravos (FORATTINI, 1995; ZARA et al., 2016), e atualmente está presente em todos os estados do país (MARCONDES; XIMENES, 2015). A predominância urbana é devida a etologia do mosquito, que utiliza recipientes artificiais como criadouros e a presença de humanos, que é uma importante fonte de alimentação (KRAEMER et al., 2015; ZARA et al., 2016). Adaptações do mosquito levaram a um aumento da sua população e deslocamento em áreas de concentração urbana, o que o levou a uma maior competência vetorial (DYE, 1992). Os ovos do mosquito podem permanecer viáveis até 492 dias de seca e eclodir após contato com água (SILVA; SILVA, 1999) ajudando a garantir o ciclo de reprodução do mosquito. Sua competência vetorial para ZIKV colocam essa espécie como principal vetor do vírus (HUANG et al., 2014; PAIXÃO et al., 2016) e novos estudos apontam a possibilidade de transmissão sexual entre mosquitos (PEREIRA-SILVA et al., 2018), podendo ser outro favor de disseminação viral.

Outro vetor importante do ZIKV, o A. albopictus, é um mosquito de origem asiática, e que apresenta importantes diferenças em relação ao A. aegypti. O A. albopictus é capaz de tolerar baixas temperaturas (KRAEMER et al., 2015; ZARA et al., 2016), e é comumente encontrado em ambiente rurais, silvestres e semi-silvestres, e pode se alimentar de humanos. Na ausência de humanos, o mosquito pode se alimentar de animais silvestres ou até de néctar e sua reprodução ocorre em recipientes naturais (MOORE et al., 1988). Os registros históricos do A. albopictus no Brasil são relativamente recentes, tendo o primeiro registro datado de 1986 no Rio de Janeiro (ZARA et al., 2016), e dados de 2014 apontam a presença do mosquito em quase todos os estados do país (CARVALHO; LOURENÇO-DE-OLIVEIRA; BRAGA, 2014) .

2.3.2 Culex quinquefasciatus

O Cx. quinquefasciatus é um mosquito amplamente distribuído nas regiões tropicais e subtropicais (FORATTINI, 1995), sendo sua distribuição fortemente ligada à presença de aglomerações humanas em áreas urbanas (AMORIM et al., 2013; FERNANDES et al., 2016; FORATTINI, 1995; GUEDES et al., 2016; GUO et al., 2016) similar, portanto, à distribuição de A. aegypti.

(25)

O consenso da academia e das agências de saúde aponta o A. aegypti como principal vetor do ZIKV (GUEDES et al., 2016). Esse consenso pode estar associado à competência vetorial dos mosquitos do gênero Aedes para transmissão do ZIKV, o que direcionou vários estudos, após o isolamento do vírus, a analisarem apenas mosquitos desse gênero (BOORMAN; PORTERFIELD, 1956; GUEDES et al., 2016; LI et al., 2012). Apesar da consonância acadêmica em torno dos mosquitos do gênero Aedes, alguns estudos indicam pouca ou nenhuma taxa de transmissão de ZIKV por mosquitos desse gênero (BEARCROFT, 1956; CHOUIN-CARNEIRO et al., 2016; DIAGNE et al., 2015; GUEDES et al., 2017; RICHARD; PAOAAFAITE; CAO-LORMEAU, 2016) e outros trabalhos investigam a possibilidade de transmissão do vírus através de outros vetores como os mosquitos do gênero Culex (FERNANDES et al., 2016; GUEDES et al., 2017; GUO et al., 2016).

Durante o primeiro surto de ZIKV em humanos, em 2007 na Micronésia, mosquitos coletados em campo não apresentaram amostras de contaminação pelo vírus (DUFFY et al., 2009). Além disso, o A. aegypti está ausente de algumas ilhas da região que apresentaram casos de infecção (DUFFY et al., 2009; SAVAGE et al., 1998). Esses dados corroboram com os trabalhos que alegam negligência da pesquisa em relação ao papel de outros possíveis vetores para o ZIKV como o Cx. quinquefasciatus que coexistem em espaços urbanos (GUEDES et al., 2017).

2.4 Métodos de predição de interações de proteínas in silico.

Os métodos experimentais tradicionais para avaliar uma interação proteica, tais como técnica de duplo-híbrido, espectrometria de massa, imunopreciptação e pull-down são laboriosos, de custo elevado e sujeito a erros sistemáticos, principalmente se essas técnicas forem aplicadas em larga escala (HARRINGTON; JENSEN; BORK, 2008; JANSEN; GERSTEIN, 2004). Tais desafios unidos a uma necessidade crescente de análise de dados com volume cada vez maior, colocam os métodos computacionais como ferramentas importantes complementares aos métodos tradicionais, a um custo relativamente baixo para análise em larga escala.

Existem várias abordagens computacionais para predição de interação entre proteínas como interalog-mapping (MATTHEWS et al., 2001), método envolvendo mineração de textos (KOYABU; PHAN; OHKAWA, 2015; PAPANIKOLAOU et al.,

(26)

2015), métodos utilizando informações de perfis de presença e ausência de proteínas em diversos proteomas de interesse (PELLEGRINI et al., 1999), métodos utilizando o contexto de vizinhança genômica (LEES et al., 2011) e métodos utilizando algoritmos de aprendizado de máquina tais com Support Vector Machine (SVM), Artificial Neural Networks (ANN) e Random Forest (GUO et al., 2008; HUANG et al., 2015; LIU; SHEN; YU, 2015; QI; KLEIN-SEETHARAMAN; BAR-JOSEPH, 2005).

Transferência de conhecimento, mineração de dados e aprendizado de máquina são as três principais abordagens com heurística utilizadas na predição de redes de interações proteicas (EID; ELHEFNAWI; HEATH, 2015). Uma vez que as famílias de vírus têm muitas dissimilaridades entre si, mineração de dados e transferência conhecimento tornam-se abordagens inapropriadas (EID; ELHEFNAWI; HEATH, 2015). Além disso os vírus possuem poucos domínios e suas estruturas são difíceis de predizer por modelagem comparativa, portanto os métodos tradicionais de predição de interação, baseados em homologia, podem não funcionar para sistemas de interação de proteínas vírus-hospedeiros (ZHANG; HE; WANG, 2017). As abordagens que utilizam aprendizado de máquina para predição de interação de proteína partem de interações conhecidas para treinamento do algoritmo, e podem ser usadas para classificação de interações ou não interações (NOURANI; KHUNJUSH; DURMUS, 2015). O modelo geral de funcionamento de um algoritmo de aprendizado de máquina, partindo de amostras conhecidas para o treinamento do algoritmo e a posterior classificação, são apresentados na Figura 4.

Os primeiros algoritmos de aprendizado de máquina surgiram ainda nos anos 70, e desde então estão cada vez mais comuns graças ao aumento de poder computacional, que vem permitindo aplicar técnicas de aprendizado de máquina em problema cada vez mais complexos e nos mais variados campos de estudos (LOURIDAS; EBERT, 2016). Os esforços de vários pesquisadores levaram a uma camada de abstração entre a complexidade dos algoritmos e suas implementações, de forma que atualmente não é necessário entender profundamente o formalismo estatístico por baixo dos algoritmos para conseguir utilizar as ferramentas desenvolvidas e aplicar aos dados do mundo real (RAMASUBRAMANIAN; SINGH, 2017).

(27)

Figura 4 - Visão geral de algoritmos de aprendizado de máquina

Fonte: Adaptado de Tan (2005)

Nota: Visão geral de um algoritmo de aprendizado de máquina. Um conjunto de dados com uma classe conhecida é usado para treinar o algoritmo, gerando um modelo que é aplicado a um conjunto de dados com classe desconhecida para classificar com base nas informações extraídas durante o treinamento.

Várias dessas implementações para aprendizado de máquina foram desenvolvidos para tratar problemas de classificação de dados, sendo SVM uma das mais conhecidas e úteis para tal finalidade. Esta abordagem parte de um conjunto de dados que é dividido em treinamento e teste com um valor de alvo que serve para classificação (HSU; CHANG; LIN, 2008). A ideia básica do SVM é gerar um hiperplano que separa o conjunto de dados em duas classes, maximizando a margem entre os pontos mais próximos (RAMASUBRAMANIAN; SINGH, 2017). A ideia geral do hiperplano é ilustrada na Figura 5.

Uma vez que o modelo do SVM é construído durante o treinamento, novos dados podem ser submetidos para classificação.

(28)

Figura 5 - Representação do Hiperplano de Classificação

Fonte: Adaptado de Ramasubramanian e Singh (2017)

Nota: Visão geral de um algoritmo de hiperplano do SVM. Um vetor central serve como divisão entre as classes. Quanto maior o espaço entre as amostras e o vetor, melhor a classificação.

Outra abordagem muito comum de aprendizado de máquina para problemas de classificação é o Random Forest, sendo este o mais popular algoritmo de decisão baseado em árvores com modelos de conjuntos (RAMASUBRAMANIAN; SINGH, 2017). Este algoritmo faz uma combinação de árvores de decisão onde cada árvore depende de amostras aleatórias independentes, mas de mesma distribuição, permitindo um alto grau de generalização (BREIMAN, 2001). A construção de cada árvore de decisão se dá a partir da seleção aleatória de amostras do conjunto de treinamento (dados de controle), e assim várias árvores de mesmo tamanho, ou seja, mesmo número de amostras do conjunto de treinamento são montadas (RAMASUBRAMANIAN; SINGH, 2017). Uma vez que os vários modelos de decisão (as árvores) estão montados, cada amostra testada é submetida à classificação por todos os modelos de decisão construídos previamente e cada modelo dá uma classificação para a amostra testada. Por fim, é feita uma contagem das várias classificações dadas para a amostra por cada árvore, processo conhecido por votação, e a classificação final é dada pela classificação mais votada (LOUPPE, 2014). O modelo geral do Random Forest é mostrado na Figura 6.

(29)

Figura 6 - Visão geral dos algoritmos de aprendizado de máquina do tipo Random Forest

Fonte: Adaptado de Ramasubramanian e Singh (2017)

Nota: Visão geral de um algoritmo de Random Forest. Estruturas de árvores de dados aleatórias são montadas e testados todos os ramos, seguida de uma análise dos resultas. Após encontrar o consenso, o resultado é coloca como classe.

Tanto SVM quanto Random Forest são algoritmos comumente encontrados na literatura para problemas envolvendo predição de interações de proteínas ( BREIMAN, 2001; CUI; FANG; HAN, 2012; HSU; CHANG; LIN, 2008; MEYER, 2001; QI; KLEIN-SEETHARAMAN; BAR-JOSEPH, 2005).

(30)

3 JUSTIFICATIVA

A recente epidemia do ZIKV atingiu diversas populações em vários países. O aumento no número de casos de microcefalia e síndrome de Guillain-Barré e suas graves consequências, associados à infecção por ZIKV, trouxeram urgência na busca por tratamentos para a doença.

Apesar do volume de conhecimento gerado pela ciência sobre o ZIKV, ainda existem lacunas de conhecimento sobre as bases moleculares que permitem que a infecção do vírus ocorra nos hospedeiros e os efeitos desenvolvidos pela doença. A confirmação da associação entre a infecção viral e os problemas neurológicos desenvolvidos abre novas frentes de pesquisas para compreender os mecanismos moleculares envolvidos. O estudo das redes de interação de proteínas pode fornecer informações que ajudem a elucidar os mecanismos moleculares.

Devido a capacidade de processamento de dados em larga escala, as abordagens in silico vem se apresentando como importantes ferramentas para auxiliar os métodos experimentais. O uso de aprendizado de máquina para predizer interações de redes de proteínas pode portando aumentar o entendimento dos mecanismos moleculares que levam à infeção do vírus nos hospedeiros e seus desdobramentos.

(31)

4 PERGUNTA CONDUTORA

Quais as interações proteicas entre ZIKV e seus hospedeiros que podem ser preditas in silico utilizando aprendizado de máquinas?

(32)

5 HIPÓTESE

É possível predizer in silico interações proteicas entre ZIKV e seus hospedeiros, a partir das informações do proteoma, utilizando algoritmos de aprendizado de máquinas.

(33)

6 OBJETIVOS

6.1 Objetivo Geral

Empregar uma abordagem in silico capaz de identificar interações proteicas interespecíficas para incrementar o entendimento molecular da infecção do ZIKV nos seus hospedeiros vertebrados e invertebrados.

6.2 Objetivos Específicos

a) Construir bases de dados com informações de pares de proteínas que interagem e pares que não interagem para treinar os algoritmos de classificação;

b) Treinar algoritmos de aprendizado de máquinas capazes de predizer interações de proteínas baseado nas suas características físico-químicas;

c) Comparar o modelo construído com outras abordagens de predição de proteínas in silico encontradas na literatura;

d) Analizar as interações das proteínas do ZIKV com os hospedeiros preditas pelo modelo;

e) Visualizar e realizar análise topológica das redes de interação proteica modeladas para cada hospedeiro analisado;

f) Executar análise de enriquecimento de dados das proteínas presentes nas redes de interações proteicas modeladas.

(34)

7 MATERIAIS E MÉTODOS

7.1 Obtenção de dados

Para o desenvolvimento do presente estudo, bases de dados públicas para obtenção de informações relativas aos proteomas das espécies analisadas foram selecionadas. Além dos proteomas do ZIKV, foram adquiridos os proteomas dos hospedeiros vertebrados H. sapiens e C. jacchus assim como os invertebrados A. aegypti, A. albopictus e C. quinquefasciatus, componentes do escopo deste estudo. Uma base de dados de interações positivas entre vírus e hospedeiros, com dados obtidos experimentalmente, foi utilizada para fins de treinamento dos algoritmos de classificação utilizados neste trabalho. A relação completa das bases de dados, respectivas espécies e dos sites com os repositórios dos proteomas adquiridos pode ser verificada no Quadro 1.

Quadro 1 – Espécies estudadas e respectivas bases de dados

Espécies Base de Dados Website

ZIKV Virus Pathogen www.viprbrc.org

H. sapiens Ensembl www.ensembl.org

C. jacchus NCBI www.ncbi.nlm.nih.gov

A. aegypti Vector Base www.vectorbase.org

A. albopictus Vector Base www.vectorbase.org

C. quinquefasciatus Vector Base www.vectorbase.org Vírus x Hospedeiros VirusMentha https://virusmentha.uniroma2.it/

Fonte: O autor

Nota: A tabela mostra as espécies analisadas no projeto e as bases de dados onde os proteomas foram baixados. São mostrados também os endereços eletrônicos das bases de dados.

A base de dados Virus Pathogen Resource (disponível em: https://www.viprbrc.org) é uma base de dados integrada com ferramentas de análise para várias famílias virais (PICKETT et al., 2012). Existem na base de dados (atualizados em 3 de junho de 2017), 438 genomas completos de ZIKV. Esta base foi escolhida para obter os dados referentes ao proteoma do ZIKV, sendo baixados dois proteomas completos referente às cepas PE243 e BeH823339.

As informações relativas aos hospedeiros vertebrados foram obtidas de duas bases de dados, sendo a base Ensembl (disponível em: http://www.ensembl.org/) para

(35)

o proteoma da espécie H. sapiens e a base de dados do NCBI (disponível em: www.ncbi.nlm.nih.gov) para as proteínas referentes à espécie C. jacchus.

Todas as informações pertinentes aos proteomas dos hospedeiros invertebrados foram obtidas a partir da base Vector Base (disponível em: www.vectorbase.org). O Vector Base é um centro de recursos e bioinformática (Bioinformatics Resource Center - BRC) que tem como missão prover suporte para pesquisas com vetores invertebrados, provendo diversas informações genéticas de vários vetores (GIRALDO-CALDERÓN et al., 2015). A partir desta base foram obtidos os proteomas dos vetores A. aegypti, A. albopictus e C. quinquefasciatus.

Todos os proteomas foram obtidos em arquivos no formato FASTA. O carregamento de todas as informações contidas nos arquivos FASTA para os servidores de alto desempenho do Instituto Aggeu Magalhães (IAM/Fiocruz) foi realizado para formar o banco de dados inicial, onde as tabelas foram montadas para refletir todas as informações contidas nos arquivos FASTA. Para o treinamento dos algoritmos de aprendizado de máquina utilizados neste trabalho, foi feito o carregamento do arquivo de interações entre vírus e hospedeiros da base de dados VirusMentha (http://virusmentha.uniroma2.it), que é uma base de interações vírus-vírus e vírus-vírus-hospedeiro obtida de forma experimental e curada seguindo protocolos bem definidos (CALDERONE; LICATA; CESARENI, 2015).

As informações desta base servem como grupo controle na fase de construção e validação do modelo, onde é feita a validação cruzada de 5 vezes. Os dados das interações proteicas são obtidos através de arquivo em formato tabular, contendo dois identificadores de proteínas que interagem (vírus-hospedeiro) no padrão da base de dados UniProt (disponível em: https://www.uniprot.org/), e informações adicionais sobre cada proteína como gênero, família, identificador da espécie e valor de score a confiabilidade da interação. Como os dados da base VirusMentha trazem apenas as interações, mas não as sequências das proteínas, foi escrito o script chamado script_2_v0.sh, em linguagem shell script, para automatizar o download das sequências das proteínas relativas as interações do VirusMentha. O script recebeu como entrada uma lista com todos os identificadores das proteínas constantes no arquivo de interações do VirusMentha, já tratado e com remoção das redundâncias, e realizou o download das sequências de proteínas de forma automatizada utilizando o webservice do UniProt.

(36)

7.2 Banco de dados do projeto

Para armazenar de forma conveniente, e facilitar as manipulações de dados de todas as informações adquiridas das bases de dados públicas previamente citadas, além das novas informações provenientes dos desdobramentos do projeto, foi desenvolvida, uma base de dados que foi hospedada no servidor de banco de dados do IAM/Fiocruz. A base de dados foi desenvolvido utilizando o banco de dados MySQL, na versão 5, como sistema gerenciador de banco de dados (SGBD), em modelo relacional e com utilização de chaves de registros, visando evitar duplicidades ou registros nulos e manter a integridade das informações ao longo das tabelas, visto que registros de chave estrangeira precisam estar de acordo com os registros das chaves primárias correspondentes (JAYANTHI; PREMA, 2011). O modelo da base de dados foi projetado utilizando a ferramenta de modelagem de base de dados MySQL Workbench, gerando o script inicial da base na linguagem chamada Structured Query

Language (SQL). O modelo geral do banco pode ser visualizado na Figura 7.

Figura 7 - Estrutura inicial do banco de dados

Fonte: O autor

Nota: Visão geral do banco de dados. As tabelas são conectadas por linhas que representam os relacionamentos entre as tabelas. Os campos marcados por quadriláteros vermelhos são chaves estrangeiras das tabelas ligadas através das linhas. A visão vw_remove_outliers é uma consulta armazenada da tabela resultBlast.

(37)

7.2.1 Tabela de interações positivas

Conforme dito anteriormente, os dados de interações positivas foram obtidos da base de dados VirusMentha e em formato de arquivo tabular. Para armazenar de forma conveniente os dados e para manipulação dos mesmos em etapas futuras, foi criada a tabela InteracoesPositivas no banco de dados do projeto. Para inserir as informações do arquivo tabular para o banco, foi desenvolvido um script em linguagem Perl chamado de populaInteracoesPositivas-0.6-RC.pl. Esse script lê o arquivo tabular, linha a linha, obtendo cada informação separada por ponto e vírgula e insere o dado de interação na tabela do banco no campo apropriado.

7.2.2 Tabela de proteomas

Os dados de sequência das proteínas carregados da base UniProt, baseados no arquivo de interações positivas do VirusMentha, foram armazenados na tabela proteoma_completo. Os dados armazenados nesta tabela contêm as sequências e identificadores de proteínas do grupo controle e foram utilizados como tabela primária para o controle da integridade dos dados, através das chaves, das tabelas de interações positivas e negativas. Portanto, as sequências nela armazenadas são utilizadas na fase de construção do modelo, especificamente no treinamento dos algoritmos de aprendizado de máquina utilizados. Foi escrito em linguagem Perl, o script denominado populaProteomaCompleto.pl, que recebe como entrada uma lista com todos os arquivos fasta, extrai as informações referentes ao identificador, descrição e sequência de cada proteína e armazena no banco dados do projeto. Para extrair as informações dos arquivos em formato FASTA, foi usado o módulo de programação em linguagem PERL chamado Bio::SeqIO, que lida com vários formatos de arquivos de uso comum no campo da bioinformática. Foram obtidas informações relativas a 5235 proteínas que são usadas nas interações positivas e negativas do conjunto de dados de treinamento e de teste dos algoritmos de aprendizado de máquina.

(38)

7.2.3 Tabela de resultados do alinhamento

Para gerar o conjunto de dados de interações negativas, com informações derivadas do conjunto de dados de interações positivas, foi realizado um alinhamento local de sequência de “todas contra todas” entre as sequências de proteínas do conjunto de interações positivas. O alinhamento foi realizado utilizando o programa Blastp do pacote BLAST+ (CAMACHO et al., 2009), o qual lida especificamente com alinhamentos de proteínas. O resultado do alinhamento foi tratado com o script em Perl recuperaBlast.pl, desenvolvido para este projeto, com o objetivo gerar um arquivo contendo apenas os dados do alinhamento das proteínas de interação positivas que são usados na montagem do conjunto de dados negativos. Além dos dados do Blastp, o script faz o cálculo da cobertura pois essa informação é usada para gerar o conjunto de dados negativos. Foi então desenvolvido um script em Perl chamado de populaTabelaBlast.pl que recebeu como entrada o arquivo com os dados do resultado do alinhamento e os carregou para tabela resultBlast do banco. A tabela resultBlast tem chave estrangeira para a tabela proteoma_completo, de forma que todas as proteínas estejam validadas no banco.

7.2.4 Tabela interações negativas

As técnicas computacionais de classificação envolvendo algoritmos de aprendizado de máquina tipicamente precisam de um conjunto de dados positivos e outro negativo para que ocorra o treinamento do algoritmo, e consequentemente a classificação do conjunto de dados desconhecido. O conjunto de dados negativos do presente projeto foi derivado do conjunto de dados positivos, ou seja, da mesma base do VirusMentha.

Em trabalhos relativos a predição de interação de proteínas, uma abordagem comum e mais simples para a geração do conjunto de dados de interações negativas é utilizar proteínas aleatoriamente do conjunto positivo desde que as proteínas em análise não interajam uma com a outra (BEN-HUR; NOBLE, 2005; EID; ELHEFNAWI; HEATH, 2015. Esta abordagem tende a gerar um número significativo de falsos-negativos no conjunto de dados negativo, pois o fato de tais proteínas não constarem como interativas no conjunto de dados positivos pode se dar apenas por falta de

(39)

conhecimento de tal interação. Outras abordagens visam, portanto, adicionar alguma heurística na geração do conjunto de interações negativas. Neste trabalho foi utilizada como base, a metodologia utilizada no trabalho de Eid, Elhefnawi e Heath, (2015) com algumas modificações. A metodologia de Eid et al. (2015) faz uso de alinhamento global entre todas as proteínas do conjunto positivo de dados para calcular o bit-score entre elas, e por fim analisar a dissimilaridade das proteínas. Esse cálculo é utilizado com base em duas premissas, sendo a primeira a de que quando o percentual de similaridade entre duas proteínas é menor que 20%, a similaridade estrutural é mínima (ROST, 1999) e a segunda que se origina no dogma central da genômica que afirma que sequência determina a estrutura e esta determina a função (EID; ELHEFNAWI; HEATH, 2015).

Diferente da metodologia apresentada por Eid, Elhefnawi e Heath, (2015), este projeto utilizou alinhamento local pois no alinhamento global podem escapar estruturas que apesar de ter pequenas porções alinhadas são importantes sítios de interação. Outra diferença é que neste projeto foram usados apenas alinhamentos com cobertura acima de 80% visando o aumento da confiabilidade dos dados atribuídos como não interativos. A Figura 8 apresenta de forma geral como duas proteínas são apresentadas como par não interativo neste projeto.

Figura 8 - Modelo de obtenção de pares negativos

Fonte: O autor

Nota: Montagem de par de proteínas não interativas. Para que sejam consideradas como um par de proteínas não interativo, uma proteína viral “X” e uma proteína do hospedeiro “A” não podem ter interação conhecida no conjunto de pares de interações positivas. A proteína “A” do hospedeiro também não pode ter interação conhecida com outra proteína do vírus que tenha ao menos 20% de similaridade com a proteínas “X” e a proteína “X” não pode interagir com outra proteína do hospedeiro que tenha ao menos 20% de similaridade com “A”. Caso as proteínas “X” e “A” atendam esses requisitos, são colocadas como par no conjunto de pares não interativos.

(40)

Para montar a tabela InteracoesNegativas foi desenvolvido um script em linguagem PERL chamado de geraInteracoesNegativas-0.6.pl. O script recebe como entrada dois arquivos de texto sendo um com a lista de proteínas de vírus e outros com a lista de proteínas de hospedeiros, depois o mesmo realiza uma consulta no banco de dados para verificar se o par está na tabela de interações positivas e, em caso negativo, assumindo o par como possível par negativo. A proteína do hospedeiro em questão é verificada na tabela de interações positivas com outras proteínas virais que ela interage e, caso interaja com outra proteína viral, é feita a verificação do grau de similaridade dessa proteína viral com a proteína viral em questão, sendo esta consulta feita através uma consulta previamente processada (recurso também conhecido como “view”) chamada vw_remove_outliers, onde estão apenas alinhamentos com cobertura maior que 80%. O bit-score é normalizado conforme a metodologia apresentada por Eid, Elhefnawi e Heath, (2015) e é verificado se a proteína viral que interage com a proteína do hospedeiro em questão tem similaridade maior de que 20% com a proteína viral que está sendo considerada para par negativo. O mesmo critério é então adotado em relação à proteína viral em questão, ou seja, é feita uma verificação se a proteína viral em questão interage com outra proteína do hospedeiro que tenha mais de 20% de similaridade com a proteína do hospedeiro em questão. Se todos os critérios forem atendidos, as proteínas viral e do hospedeiro em questão são adicionadas na tabela Interações negativas.

7.3 Treinamento dos Algoritmos

A predição da interação de proteínas é realizada neste trabalho através do emprego de técnicas e algoritmos de aprendizado de máquina. O projeto foi desenvolvido usando a linguagem de programação R, através da interface de desenvolvimento RStudio, e pacotes desenvolvidos em R visando preparar os dados para o treinamento e teste do algoritmo de aprendizado de máquina. Os pacotes em R permitiram a extração de características físico-químicas das proteínas, baseado nas sequências de aminoácidos, e normalização dos dados para o uso de algoritmo de aprendizado de máquina. A linguagem R também foi usada para a aplicação do algoritmo Random Forest, através da sua implementação no pacote Caret (KUHN, 2013).

(41)

7.3.1 Carga de dados para o RStudio

A carga inicial de dados para o RStudio consiste em colocar as informações dos pares de interações, tanto as positivas quanto as negativas, em estrutura de dados na memória do servidor para tratamento dos dados através de comandos em linguagem R. Foram gerados no servidor, usando comandos em linguagem Shell Script e SQL, dois arquivos para as interações positivas e mais dois arquivos para as interações negativas, refletindo os pares positivos e negativos. Cada arquivo contém as informações (identificador da proteína e sua respectiva sequência de aminoácidos) de um dos membros do par de interação, mantendo a ordem dos pares. Foi escrito o script em linguagem R chamado protCheckExtractFeatures.R que carrega os arquivos de interações em matrizes na memória e faz a extração das características físico-químicas das proteínas e normalização dos dados.

7.3.2 Extração de características físico-químicas

Para fazer a extração das características físico-químicas das proteínas, conforme metodologia utilizada em Eid, Elhefnawi e Heath, (2015), foi utilizado o pacote protR (XIAO et al., 2015). O protR é uma pacote em R que gera esquemas de representações numéricas de proteínas e peptídeos a partir de sequências de aminoácidos (XIAO et al., 2015; XIAO; XU; CAO, 2014). O pacote implementa o esquema de extração de características físico-químicas desenvolvido por Shen et al. (2007).

A primeira etapa consiste em checar se todas as proteínas carregadas na matriz estão no padrão contendo apenas letras que representam os 20 aminoácidos. Esta verificação é realizada usando a função protcheck do protR. As proteínas que estão fora do padrão, e as respectivas interações, são descartadas nesta esta etapa. Em seguida os aminoácidos de cada proteína são separados em 7 grupos baseados nas similaridades físico-químicas conhecidas por guiar as interações entre duas proteínas (dipolos e volume da cadeia lateral). Cada grupo de aminoácidos recebe um número conforme o Quadro 2.

(42)

Quadro 2 – Aminoácidos agrupados pelas características físico-químicas Aminoácidos Grupo {A,V,G} 1 {I,L,F,P} 2 {Y,M,T,S} 3 {H,N,Q,W} 4 {R,K} 5 {D,E} 6 {C} 7 Fonte: O autor

Nota: Grupos de aminoácidos e os respectivos rótulos de grupo durante a verificação de padrão e normalização do protR.

A sequência de aminoácidos é então mapeada para um vetor de números correspondentes aos grupos para cada aminoácido. O vetor com os números dos grupos é então separado em trincas e a frequência de cada trinca é calculada para cada proteína, formando um vetor de características de tamanho igual a 343 (73₌ 343). Esta etapa permite que proteínas com sequências de tamanhos variados sejam colocadas em vetores de tamanhos iguais para possibilitar a comparação. Cada vetor de proteína tem seus elementos de características físico-químicas normalizados conforme a fórmula apresentada na Figura 9, ficando cada elemento com um valor numérico entre “0” e “1”.

Figura 9 - Fórmula de Normalização

Fonte: Eid, Elhefnawi e Heath (2015)

Nota: O valor normalizado da característica em avalição é representado por 𝑓′𝑖, onde calcula-se o valor não normalizado da característica em avaliação 𝑓𝑖 subtraído do valor mínimo do vetor e divide-se este valor pela diferença entre o valor máximo do vetor e o valor mínimo do vetor.

Com todas as proteínas normalizadas, foram montados os pares de interações. Os vetores gerados na etapa anterior foram salvos em arquivos Comma-Separated Values (CSV), que são arquivos com vários valores separados por algum caractere definido, chamado de separador. Em seguida esses arquivos CSV foram carregados

(43)

como matrizes, representando as proteínas na forma normalizada. As quatro matrizes que representam as proteínas dos pares foram unidas utilizando comando em R para alinhar as matrizes lado a lado, positivas com positivas e negativas com negativas, formando então duas matrizes com os pares de interações, uma para os positivos e outra para os negativos. Por fim, as duas matrizes foram unificadas em uma única matriz, com a matriz de pares positivos seguida da matriz de pares negativos, formando uma única matriz com todos os pares de interações, positiva e negativas, que serviu para o treinamento, teste e validação cruzada do modelo. A Figura 10 apresenta as etapas desta montagem.

Figura 10 - Montagem do arquivo de grupo controle para treinamento

Fonte: O autor

Nota: Após a normalização dos dados, são gerados quatro arquivos com os membros dos pares, sendo dois para as interações positivas e dois para as negativas. Esses arquivos são unidos lado a lado formando dois arquivos, um com os pares positivos e outro com os pares negativos. Os arquivos com os pares são então unidos um abaixo do outro, gerando o arquivo final de interações do grupo controle.

7.3.3 Divisão de grupos de treinamento e teste

Com as matrizes de interações positivas e negativas devidamente carregadas na memória do RStudio, foi realizada integração de ambas matrizes gerando uma única matriz com todas as interações positivas e negativas. O algoritmo de aprendizado de máquina aplicado aos problemas de classificação precisa de uma identificação das amostras, no caso do grupo de controle ou treinamento, para a devida identificação dos exemplos positivos e dos negativos. Para o algoritmo de

(44)

Random Forest implementado no pacote Caret, é preciso colocar o valor “0” para as amostras negativas e “1” para as amostras positivas.

Os testes realizados com a técnica de Random Forest, foi criada com a função label do R uma marcação para adicionar um “0” nas interações negativas e um “1” nas interações positivas. A etapa seguinte consiste em pegar o conjunto de dados controle, já normalizado e com as amostras previamente identificadas conforme as etapas anteriores, e dividir em grupo de treinamento e grupo de teste.

Para o uso do Random Forest foi desenvolvido o script em linguagem R lerCSVDivideDados_RF.R, que carrega a matriz com os dados controle para a memória do RStudio, adiciona o alvo que identifica as amostras como positivas ou negativas e em seguida separa um percentual dos dados em treinamento e coloca a diferença no subconjunto de teste. O percentual de amostra que vai para os conjuntos de treinamento e teste pode ser definido no código do script e as amostras são colocadas de forma randômica em cada conjunto, porém mantendo o equilíbrio entre o número de amostras positivas e negativas em cada conjunto para evitar viés no treinamento.

7.3.4 Treinamento dos algoritmos

A fase de treinamento foi realizada de acordo com as características da implementação do algoritmo. Random Forest tem como único parâmetro passado o número de validação cruzada. A treinamento ocorre, junto com o carregamento dos dados e a validação cruzada, no script lerCSVDivideDados_RF.R. Após a execução do script, um arquivo “.RData” é gerado e salvo no servidor. Este arquivo contém o modelo treinado com todos os valores carregados na memória do RStudio e que são posteriormente usados na classificação dos dados.

7.3.5 Validação cruzada

Visando fazer a validação do modelo, foi realizada a validação cruzada de 5-vezes para o treinamento do Random Forest. Foi escolhido o valor de 5 5-vezes para a validação por ser um valor amplamente encontrado na literatura nos estudos e aplicação de aprendizado de máquina.