• Nenhum resultado encontrado

UNIVERSIDADE ESTADUAL DE FEIRA DE SANTANA BACHARELADO EM ENGENHARIA DE COMPUTAÇÃO RAFAEL TOSTA SANTOS UM SISTEMA DE QUALIFICAÇÃO DE MECANISMOS IN-SILICO PARA PREDIÇÃO DE EPÍTOPOS FEIRA DE SANTANA 2013

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE ESTADUAL DE FEIRA DE SANTANA BACHARELADO EM ENGENHARIA DE COMPUTAÇÃO RAFAEL TOSTA SANTOS UM SISTEMA DE QUALIFICAÇÃO DE MECANISMOS IN-SILICO PARA PREDIÇÃO DE EPÍTOPOS FEIRA DE SANTANA 2013"

Copied!
40
0
0

Texto

(1)

RAFAEL TOSTA SANTOS

UM SISTEMA DE QUALIFICAÇÃO DE MECANISMOS IN-SILICO PARA PREDIÇÃO DE EPÍTOPOS

FEIRA DE SANTANA 2013

(2)

RAFAEL TOSTA SANTOS

UM SISTEMA DE QUALIFICAÇÃO DE MECANISMOS IN-SILICO PARA PREDIÇÃO DE EPÍTOPOS

Trabalho de Conclusão de Curso apresentado ao curso de Graduação em Engenharia de Computação da Universidade Estadual de Feira de Santana, como requisito parcial para a obtenção do título de Engenheiro de Computação.

Orientador: Angelo Amâncio Duarte/ DTEC/ UEFS

FEIRA DE SANTANA 2013

(3)

Dedico esta monografia a minha família, pelo apoio fornecido, aos meus colegas e amigos, e para a minha namorada, meu refúgio.

(4)

AGRADECIMENTOS

Primeiramente a DEUS por guiar meus passos.

A minha família, pelo constante apoio, pelas cobranças e conselhos. Ao meu irmão e aos amigos, pelo apoio e incentivo durante a caminhada e por torcerem e acreditarem em mim.

Ao meu orientador Dr. Angelo Amâncio Duarte pelo grande apoio e auxílio prestado para a conclusão deste trabalho. Obrigado por tudo, principalmente pela sua paciência.

(5)

RESUMO

O desenvolvimento de vacinas eficientes é prejudicado pela falta de compreensão dos mecanismos de defesa e dos agentes causadores de doenças, sendo a Bioinformática uma especialidade muito útil para auxiliar a compreensão de problemas biológicos utilizando recursos computacionais e como ferramenta de apoio no processo de pesquisa e desenvolvimento de vacinas eficientes. Este Trabalho de Conclusão de Curso propõe um método inédito na Bioinformática para determinar qual site preditor de epítopos possui alto poder preditivo, culminando com o desenvolvimento de uma ferramenta computacional que funciona como um sistema automático para qualificação dos sites preditores de epítopos de consulta publica que são popularmente utilizados para auxílio no desenvolvimento de vacinas, definindo uma métrica de qualidade para cada um deles com objetivo de classificá-los quanto a sua capacidade de preditiva.

(6)

ABSTRACT

The development of efficient vaccines is hampered by a lack of understanding of the defense mechanisms and disease-causing agents, and Bioinformatics is very useful to aid the understanding of biological problems using computational resources and expertise as a support tool in the research process and development efficient vaccines. This work proposes a novel method in Bioinformatics to determine which site predictor of epitopes has high predictive power, culminating in the development of a computational tool which works like an automatic qualification for the predictors sites epitopes publishes consultation system that are popularly used to aid in the development of vaccines, defining a quality metric for each of them in order to classify them as their predictive ability.

(7)

LISTA DE FIGURAS

Figura 1: Distribuição das Leishmaniasis pelo mundo, 2005-2009 13 Figura 2: Phlebotomus, inseto transmissor da leishmaniose 14 Figura 3: Reconhecimento de um complexo peptídeo-MHC pelo linfócito T 16

Figura 4: Estrutura de um Web Crawler 18

Figura 5: Página de entrada do site Bimas 21

Figura 6: Resultado da predição pelo site Bimas 22

Figura 7: Página de entrada do site IEDB Consensus 23

Figura 8: Resultado da predição pelo site IEDB Consensus 24

Figura 9: Página de entrada do site NETMHC 25

Figura 10: Resultado da predição pelo site NETMHC 26

Figura 11: Página de entrada do site SYFPEITHI 27

Figura 12: Resultado da predição pelo site SYFPEITHI 27

Figura 13: Tela inicial da ferramenta EPIBOT 32

Figura 14: Etapas para qualificação dos sites pelo EPIBOT 33 Figura 15: Resultado da qualificação apresentado pelo EPIBOT 34 Figura 16: Resultado da qualificação dos sites pelo EPIBOT 35 Figura 17: Gráfico de comparação entre os sites preditores 36

(8)

LISTA DE TABELAS

Tabela 1: Posição dos epítopos de referência. 28

Tabela 2: Valores da pontuação dos epítopos de referência. 29

(9)

SUMÁRIO

1. INTRODUÇÃO 11 2. FUNDAMENTAÇÃO TEÓRICA 13 2.1. Leishmania Braziliensis 13 2.2. Sistema Imunológico 15 2.3. Preditores de Epítopos 16 2.4. Web Crawler 17 3. METODOLOGIA 19

3.1. Análise dos sites preditores de epítopos 19

3.1.1. Site Bimas 20

3.1.2. Site IEDB Consensus 22

3.1.3. Site NETMHC 24

3.1.4. Site SYFPEITHI 26

3.2. Processo de Qualificação dos sites preditores de epítopos 28 3.3. Característica de desenvolvimento da ferramenta EPIBOT 31

4. RESULTADOS 32

4.1. Ferramenta EPIBOT 32

4.2. Análise dos resultados da ferramenta EPIBOT 34

5. CONSIDERAÇÕES FINAIS 37

(10)

GLOSSÁRIO

Aminoácido – Nome dado para qualquer molécula que contenha simultaneamente grupos funcionais de amina e ácido carboxílico.

Antígeno – Toda molécula capaz de iniciar o sistema imunológico para a produção de um anticorpo específico.

Bioinformática – Nome dado à associação da informática como ferramenta de trabalho em conjunto com temas biológicos.

Epítopo – É a menor parte de um antígeno capaz de estimular a produção de um anticorpo.

Proteínas – Compostos orgânicos de alto peso molecular formados pelo encadeamento de aminoácidos.

In-vitro – Nome dado à pesquisa que gera resultados utilizando meios laboratoriais reais para a geração de resultados.

In-silico – Nome dado à pesquisa que gera resultados utilizando meios computacionais ou simulações.

Web Crawlers – Gênero específico de softwares robôs que visam interação com dados ou sistemas da web.

Proteôma – É a ciência da área de biotecnologia que estuda o conjunto de proteínas e suas isoformas contidas em uma amostra biológica.

(11)

1. INTRODUÇÃO

A bioinformática visa resolver problemas biológicos aproveitando recursos computacionais como ferramenta de apoio em áreas como a biologia e a medicina (BALDI; BRUNAK, 2001). A popularização da bioinformática como ferramenta de auxílio à pesquisa vem se destacando com o surgimento de novas ferramentas e métodos de análises que tornam os custos mais reduzidos, não apenas em termos financeiros, mas também nas horas gastas com profissionais (DOYTCHINOVA; GUAN; FLOWER, 2008).

Segundo o movimento Drugs for Neglected Diseases Intiative (DNDI, 2012), a leishmaniose, doença causada por protozoários parasitas do gênero Leishmania, atinge principalmente países em desenvolvimento e há pouco interesse por parte da indústria farmacêutica no desenvolvimento de vacinas e no apoio às pesquisas pelo alto custo agregado. A leishmaniose é um sério problema de saúde pública e o desenvolvimento de vacinas eficientes é prejudicado pela falta de compreensão global dos mecanismos de defesa do organismo contra os agentes causadores de doenças. Uma atividade chave para o desenvolvimento de vacinas é a identificação dos epítopos, ou seja, a identificação de moléculas capazes de estimular a produção de anticorpos. Essa identificação é custosa tanto em tempo quanto em recursos financeiros, principalmente por causa da enorme diversidade de epítopos originados do conjunto de proteínas contidas em uma amostra biológica dos organismos causadores da doença.

A identificação de epítopos evolutivamente estáveis representa o desafio no desenvolvimento de vacinas contra qualquer organismo capaz de causar uma doença. Tradicionalmente, esta identificação é realizada de forma empírica, utilizando análises em laboratório, conhecidas como métodos in-vitro. Os métodos in-vitro são considerados definitivos na identificação de epítopos, mas têm um alto custo de tempo e recursos financeiros.

Métodos computacionais, conhecidos na bioinformática como métodos in-silico, são fundamentais para reduzir os gastos financeiros e o tempo através da redução do universo de epítopos que podem disparar a atividade imunológica no organismo. Os métodos in-silico não podem ser considerados como definitivos, mas são fundamentais para a realização das validações in-vitro (DANCHIN et al.,1991).

Atualmente existem disponíveis para consulta pela Internet diversos sites que disponibilizam métodos in-silico para predição de epítopos. Entre estes pode-se citar: Bimas, IEDB Consensus, NETMHC, SYFPEITHI. Cada um destes sites utiliza seu próprio algoritmo

(12)

de predição e apresenta seu próprio índice de classificação para os epítopos. Porém, apesar da existência de diversos algoritmos dedicados a previsão de epítopos, nenhum deles é capaz de prever com total de acerto, o que dificulta a análise dos resultados pelos pesquisadores.

O trabalho apresentado nesta monografia objetivou criar um sistema automático de qualificação dos sites de predição de epítopos, através de uma métrica própria para pontuar quão bem um site consegue prever epítopos de referência. A métrica criada neste trabalho permitiu ponderar a qualidade dos sites normalizando seus resultados e comparando os epítopos previstos com epítopos de referência já comprovados pela literatura. Este trabalho consiste no desenvolvimento de um método inédito para a Bioinformática, pois atualmente não existem trabalhos na literatura propondo a classificação de sites preditores de epítopos através de uma métrica de qualidade.

Como resultado, foi criada a ferramenta EPIBOT, um sistema computacional que funciona como um sistema automático de consulta simultânea a diversos sites de predição de epítopos disponíveis na Internet através da utilização de Web Crawlers. Essa ferramenta permitiu a comparação da qualidade de predição de quatro sites de consulta pública que são popularmente utilizados para o fim de predição de epítopos.

A ferramenta EPIBOT, a lista de classificação dos sites, bem como a fundamentação teórica, a metodologia e os experimentos realizados são descritos nos próximos capítulos.

(13)

2. FUNDAMENTAÇÃO TEÓRICA

Neste capítulo apresentam-se os conceitos que contemplam o arcabouço teórico para a compreensão da Leishmania Braziliensis e o sistema imunológico, sobre os Preditores de Epítopos e sobre um mecanismo de busca automática a sites na Internet, para chegar ao projeto de método computacional para o auxílio na construção de vacinas.

2.1. Leishmania Braziliensis

A leishmaniose é uma doença causada por protozoários, parasitas que pertencem ao gênero Leishmania, ocorrendo principalmente nas regiões tropicais e subtropicais do mundo (Figura 1), atingindo mamíferos, em sua maioria humanos e caninos. Essa doença é diagnosticada a partir de seus sintomas mais comuns como irritações cutâneas, febre, diarreia, tremores, mal estar e anemia.

Figura 1: Distribuição das Leishmaniasis pelo mundo, 2005-2009.

(14)

É transmitida pela picada de um mosquito (sandflies) fêmea do gênero Lutzomyia, ou Phlebotomus (Figura 2). Uma vez infectado, o destino desses parasitas no corpo do hospedeiro vai determinar o tipo de doença que irá aparecer no indivíduo, variando em: infecções cutâneas, que atacam a pele, infecções mucocutâneas, que atingem os tecidos celulares e protegem as células do meio externo, infecções viscerais, que atacam os órgãos viscerais como o fígado e o baço.

Figura 2: Phlebotomus, inseto transmissor da leishmaniose.

Fonte: (Mundo Educação, 2013).

Estima-se que existam mais de 20 espécies diferentes de parasitas que podem desenvolver um dos tipos da doença. Dos mais de 20 tipos patogênicos, ou seja, hábeis para causar uma doença, o tipo mais comum encontrado no Brasil, e ainda sem cura, é o parasita Leishmania Braziliensis (BOAVENTURA et al., 2008). A Leishmania Braziliensis é um dos parasitas responsáveis pela leishmaniose, encontrado em grandes quantidades no Brasil e em outros países da América Latina, como a Colômbia, Venezuela, Guianas, Peru (GUTHMANN et al, 2005). Atualmente, não existe cura para a doença causada especificamente por esse parasita.

Durante estudos realizados mundialmente, foram detectados aproximadamente 8300 genes compartilhados com os outros tipos de Leishmanias. Acredita-se que cerca de 49 são exclusivos do parasita Leishmania Braziliensis (SMITH; PEACOCK; CRUZ, 2007). Atualmente, 10 genes já possuem o mapeamento de sua molécula par, que faz com que o sistema imunológico seja ativado quando reconhecido pelo organismo do hospedeiro combatendo assim o parasita.

(15)

2.2. O Sistema Imunológico

A função do sistema imunológico é eliminar substâncias estranhas, como vírus e bactérias, do corpo. É um conjunto de estruturas (entre elas, os linfócitos) que são responsáveis por garantir a defesa e por manter o corpo funcionando livre de doenças. Existem dois ramos do sistema imunológico: via humoral e mediado por células.

A imunidade humoral, que envolve anticorpos (imunoglobulinas), é composta por todos os mecanismos que defendem o organismo de forma não específica contra um invasor, respondendo da mesma forma, qualquer que ele seja. Constituem as estratégias de defesa mais antigas, sendo algumas destas formas encontradas nos seres multicelulares mais primitivos, nas plantas e fungos. Quando se une o antígeno e seu anticorpo, produzem-se mediadores químicos pelos mastócitos ou lesão celular direta (MAHAN; ESCOTT-STUMP, 2005).

A imunidade celular ou mediada por células se concentra na capacidade das células imunitárias distinguirem proteínas produzidas pelas células do próprio corpo e proteínas produzidas por invasores ou pelas células do hospedeiro sob o controle de vírus. Isso envolve a ação dos linfócitos T (célula T) que reconhecem antígenos, mas não produzem anticorpos. Estes antígenos, quando estimulam o crescimento da célula T, produzem linfocinas e citocinas, indispensáveis na regulação das atividades das células B ou que causam lesão celular direta às células alvo, resultando na destruição dos antígenos (MAHAN; ESCOTT-STUMP, 2005).

Os macrófagos teciduais, derivados de monócitos no sangue, são importantes no papel de reconhecimento, eliminação e apresentação de antígenos. Através do processo de fagocitose, este engole e destrói antígenos. Supõe-se que as células B, as células T, os mastócitos e macrófagos interagem entre si.

O reconhecimento de antígenos pelos linfócitos B e T é bastante diferente. Linfócitos B e anticorpos geralmente reconhecem antígenos solúveis (proteínas intactas). Um epítopo linfócito B é definido como uma região de uma proteína capaz de ser reconhecida tanto por um anticorpo como por um receptor de linfócito B (PETERS et al., 2005). Pelo fato destes antígenos estarem livre em solução, estes epítopos tendem a estar em locais altamente acessíveis, expostos na superfície do antígeno.

Em contraste, os epítopos de linfócitos T são compostos por peptídeos curtos, processados a partir de proteínas antigênicas. Estes são apresentados no contexto de histocompatibilidade principal (MHC) (MAENAKA & JONES, 1999; TERASAKI, 2007). Os epítopos de linfócitos T não podem ser analisados separados das moléculas de MHC (Figura

(16)

3). O complexo MHC-peptídeo é então reconhecido por receptores de linfócitos T e este reconhecimento pode desencadear uma resposta imune (JENSEN, 2007).

Figura 3. Reconhecimento de um complexo peptídeo-MHC pelo linfócito T.

Fonte: (ABBAS & LICHTMAN, 2005).

As proteínas do MHC são altamente polimorfas e cada uma se liga a um conjunto limitado de peptídeos. Portanto, a combinação particular de alelos MHC presentes num hospedeiro, limita a faixa de epítopos potenciais reconhecidos durante uma infecção. A combinação adotada do epítopo de linfócito T na molécula do MHC é crítica para o reconhecimento do receptor de linfócito T (ABBAS & LICHTMAN, 2005).

2.3. Preditores de Epítopos

O mapeamento de epítopos a partir de programas de bioinformática tem sido testado quanto ao seu potencial no desenvolvimento de novas vacinas. A justificativa desta metodologia consiste em inserir na composição vacinal somente as sequências que serão realmente reconhecidas pelas células do sistema imunológico (PORTAL EDUCAÇÃO, 2012).

(17)

Vários algoritmos computacionais têm sido usados na busca por sequências de aminoácidos de uma dada proteína por características que, acredita-se, sejam comuns a peptídeos imunogênicos na localização de regiões que são prováveis de indução de resposta imune celular in-vitro (LUCCHESE et al., 2003). Os padrões de aminoácidos preditos requerem a aplicação de métodos de reconhecimento de padrões, para avaliar diretamente das sequências proteicas, e determinar quais peptídeos possuem o papel de epítopos.

Devido a características conservadas entre os epítopos é possível prever quais epítopos poderiam se ligas às moléculas de MHC específicas. Vários métodos utilizando técnicas de aprendizado de máquinas são utilizados para esta análise, podendo ser por métodos probabilísticos, Redes Neurais Artificiais, Cadeias de Markov Escondidas, Matriz de Escore por posições específicas, entre outros.

Esses algoritmos podem identificar regiões proteicas que contenham epítopos a partir de informações contidas em um conjunto de dados de treinamento composto por epítopos validados experimentalmente em laboratório, com objetivo de determinar o nível de compatibilidade de epítopos contidos em uma sequência genética que podem ser capazes de ativar a resposta imune para um determinado organismo.

Porém, nenhumas dessas técnicas de predição de epítopos assumem a existência de eventos evolutivos em seus algoritmos e, portanto, são incapazes de avaliar a seleção natural nas sequências analisadas, porém a utilização de um representativo conjunto de treinamento propicia o sucesso de um preditor.

2.4. Web Crawler

Os Web Crawlers, em português Rastreadores Web, são métodos computacionais projetados para simular ações humanas repetidas vezes de maneira padrão, da mesma forma como faria um robô. Os Web crawlers são capazes de navegar pela World Wide Web de uma forma metódica e automatizada, não fazendo distinção entre cada documento utilizado, sendo geralmente arquivos HTML (BAEZA-YATES; CASTILLO, 2002).

No contexto dos programas de computador, é um utilitário que desempenha tarefas rotineiras ou, num jogo de computador, um adversário com recurso de inteligência artificial. Muitos sites, em particular os motores de busca, usam crawlers para manter uma base de dados atualizada, criando uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas

(18)

mais rápidas. Os crawlers também podem ser usados para tarefas de manutenção automatizadas em um web site, como checar os links ou validar o código HTML (HEATON, 2002). Atualmente, não foi encontrado na literatura sobre a utilização de web crawlers na bioinformática como ferramenta de automatização a consultas a sites ou como motor de busca de informações geradas por métodos in-silico de bioinformática.

Os web crawlers podem ser implantados também em sites em que há comunicação com o usuário, como sites onde é necessária comunicação semelhante à humana, sendo seu uso mais recente pela Google, em que é exibido a propaganda mais adequada a cada pessoa dependendo de seu comportamento na Internet.

A comunicação entre os web crawlers e os sites na Internet ocorre a partir dos eventos de usuário, caso exista, e pelo acesso a Internet através do endereço do site (URL). Logo após, o crawler recebe a resposta do site em formato HTML e realiza o processamento destes dados extraindo apenas os dados desejados (Figura 4).

Figura 4: Estrutura de um Web Crawler.

(19)

3. METODOLOGIA

Neste capítulo serão discutidos os procedimentos utilizados no desenvolvimento do processo de qualificação dos sites de predição de epítopos e na construção da ferramenta EPIBOT.

3.1. Análise dos sites preditores de epítopos

Para os acessos automáticos aos sites preditores pelos web crawlers se faz necessário a análise da estrutura de cada site preditor utilizado, para definir os dados de entrada (as proteínas a serem previstas) e como serão tratados os dados de saída (os epítopos previstos) conforme a estrutura definida por cada site. Esta análise consiste em verificar quais dados são exigidos para executar a predição de uma proteína, como as informações dos epítopos preditos estão organizadas e como é definida a posição de classificação de cada epítopo (rank), pois esse rank pode ser obtido através do valor de score ou disponibilizado pelo próprio site.

A partir da análise cada web crawler será programado para iniciar uma predição e ser capaz de extrair os dados a partir do formato de saída definido pelo próprio site, e os valores de rank dos epítopos utilizados para a construção do método de qualificação dos sites. Os sites preditores utilizados foram:

• Bimas (http://www-bimas.cit.nih.gov/molbio/hla_bind/); • IEDB Consensus (http://tools.immuneepitope.org/mhci/); • NETMHC (http://www.cbs.dtu.dk/services/NetMHC/); • SYFPEITHI

(http://www.syfpeithi.de/bin/MHCServer.dll/EpitopePrediction.htm).

Nos tópicos a seguir são examinados os dados solicitados para entrada e saída de cada site. Desta forma, para a consulta aos sites foi utilizada uma proteína escolhida de forma empírica, originado do banco de dados GenBank disponibilizado pela National Center for Biotechnology Information (NCBI), sendo a proteína escolhida cujo código é 546454, tendo a seguinte representação no formato FASTA:

(20)

>gi|546454|gb|AAB30592.1| stage-specific S antigen homolog [Leishmania infantum] MKIRSVRPLVVLLVCVAAVLALSASAEPHKAAVDVGPLSVGPQSVGPLSVGPQAVGPLSVGPQSVGPLS VGPQAVGPLSVGPQSVGPLSVGPLSVGPQSVGPLSVGSQSVGPLSVGPQSVGPLSVGPQAVGPLSVGPQ SVGPLSVGPQAVGPLSVGPQSVGPLSVGPQSVGPLSVGSQSVGPLSVGPQSVGPLSVGPQSVGPLSVGPQ SVGPLSVGPQSVGPLSVGPQSVDVSPVS 3.1.1. Site Bimas

Analisando o site Bimas (Figura 5) obtemos os seguintes parâmetros para iniciar a previsão de uma proteína:

• HLA molecule: escolha da molécula de interesse;

• n-mers: comprimento das subsequências extraídas da sequência da proteína;

• Results Limited by: utilizado para limitar o número de resultados retornados, podendo ser:

o Explicit Number: indica a quantidade de resultados a serem retornados;

o Predicted T(1/2): apenas os escores dos epítopos ao longo de um determinado valor serão retornados.

• Sequence to analyze: entrada da sequência da proteína a ser pesquisada, sendo aceito os formatos : Raw/ Plain, EMBL, Pearson/ Fasta;

• Echo input sequence: caso deseja exibir a sequência de entrada na página de saída;

(21)

Figura 5: Página de entrada do site Bimas.

Fonte: www-bimas.cit.nih.gov/molbio/hla_bind/.

Ao finalizar as predições, uma página de amostragem então é exibida informando os resultados em uma tabela (Figura 6), contendo informações como a posição (Rank) do epítopo, a posição de início (Start Position) referente à sequência da proteína, a sequência do epítopo previsto e sua pontuação (Score).

(22)

Figura 6: Resultado da predição pelo site Bimas.

Fonte: www-bimas.cit.nih.gov/molbio/hla_bind/.

3.1.2. Site IEDB Consensus

• Analisando o site IEDB Consensus (Figura 7) obtemos os seguintes parâmetros para iniciar a previsão de uma proteína: Prediction Method Version: especifica a versão do método de predição;

• Enter protein sequence(s): entrada da sequência da proteína a ser pesquisada;

• Browse: carrega as proteínas de entrada a partir de um arquivo. Não sendo permitida mais de 200 sequências;

• Choose sequence format: define o formato das sequências de entrada. A opção “auto detect format” é o recomendado, pois o formato das sequências de entrada será automaticamente detectada;

• Prediction Method: define método de predição será utilizado na análise da proteína de entrada. Como padrão e recomentado é definido o método “IEDB recommended”;

(23)

• Select MHC allele(s): define a molécula de interesse e o comprimento da subsequência extraídas da sequência da proteína;

• Show: define um limiar de corte;

• Output format: define a formatação dos resultados. Para reutilizar os resultados de predição, em um programa externo seleciona “Text file”, pois os resultados terá o formato de texto simples;

• Submit: iniciar predição.

Figura 7: Página de entrada do site IEDB Consensus.

Fonte: tools.immuneepitope.org/mhci/.

Ao finalizar as predições, uma página de amostragem então é exibida informando os resultados em uma tabela (Figura 8), contendo informações como o tipo do alelo (Allele), a posição de início e fim (Start e End) referente à sequência genética da proteína, o tamanho do peptídeo (Peptide Length), o epítopo, o método utilizado pelo site e sua pontuação (Percentile Rank).

(24)

Figura 8: Resultado da predição pelo site IEDB Consensus.

Fonte: tools.immuneepitope.org/mhci/.

3.1.3. Site NETMHC

Analisando o site NETMHC (Figura 9) obtemos os seguintes parâmetros para iniciar a previsão de uma proteína:

• Paste single sequence: entrada da sequência da proteína a ser pesquisada; • Escolher arquivo: carrega as proteínas de entrada a partir de um arquivo no

formato FASTA;

• Peptide input: formatar peptídeo diretamente no disco local;

• Select Allele: escolha da molécula de interesse. Podendo ser escolhido mais de uma;

• Peptide Length: comprimento das subsequências extraídas da sequência da proteína;

• Sort by affinity: ordenar o resultado por afinidade; • Submit: iniciar predição.

(25)

Figura 9: Página de entrada do site NETMHC.

Fonte: www.cbs.dtu.dk/services/NetMHC/.

Ao finalizar as predições, uma página de amostragem então é exibida informando os resultados em uma tabela (Figura 10), contendo informações como a posição (pos) do epítopo, o epítopo, sua pontuação (logscore), a afinidade do peptídeo previsto para o MHC expresso pelo alelo escolhido (affinity (nM) Bind Level), nome da proteína (Protein Name) e o alelo (Allele).

(26)

Figura 10: Resultado da predição pelo site NETMHC.

Fonte: www.cbs.dtu.dk/services/NetMHC/.

3.1.4. Site SYFPEITHI

Analisando o site SYFPEITHI (Figura 11) obtemos os seguintes parâmetros para iniciar a previsão de uma proteína:

• Select MHC type: escolha da molécula de interesse;

• Choose a mer: comprimento das subsequências extraídas da sequência da proteína;

• Paste your sequence here: entrada da sequência da proteína a ser pesquisada. Inserir apenas a sequencia da proteína, sendo o máximo de 2048 aminoácidos de entrada;

(27)

Figura 11: Página de entrada do site SYFPEITHI.

Fonte: www.syfpeithi.de/bin/MHCServer.dll/EpitopePrediction.htm.

Ao finalizar as predições, uma página de amostragem então é exibida informando os resultados em uma tabela (Figura 12), contendo informações como a posição (pos) do epítopo, o epítopo e sua pontuação (score).

Figura 12: Resultado da predição pelo site SYFPEITHI.

(28)

3.2. Processo de Qualificação dos sites preditores de epítopos

As comparações entre as previsões geradas por cada site com os epítopos de referência permitem medir a qualidade destes sites verificando se estes epítopos foram preditos corretamente. Para elaboração deste método foi utilizado um conjunto de 18 proteínas contendo no total 19 epítopos de referência disponibilizadas pelo Centro de Pesquisas Gonçalo Moniz da Fundação Oswaldo Cruz (CPqGM/FIOCRUZ), referente ao organismo dos ratos cuja molécula de interesse é H2-Kb e comprimento das subsequências de 9.

Essas proteínas foram submetidas aos sites preditores e a partir dos resultados gerados foram identificadas as posições de classificação (rank) dos epítopos de referência. Obtendo como resultado a Tabela 1.

Tabela 1: Rank dos epítopos de referência.

Proteína Epítopo Rank

Bimas IEDB C. NETMHC SYFPEITHI

546454 VGPQSVGPL 4 3 26 5 1078694 ADKPDESTL 5 2 5 5 68124672 RYDQLVTRV 6 4 4 1 68124672 SYAGLCANV 7 3 10 1 68124790 AGQPTAATL 13 16 19 6 68128373 FYNSTVTSL 1 1 1 1 72546734 QGEAEAATL 12 72 31 12 72549459 SYENTEDEL 1 1 5 1 73536656 SYSSLVSAL 2 1 1 1 73537023 FYQEAAELL 2 5 2 1 76363734 GGGSGILGT 19 89 59 13 157866344 VYNQVEEQL 1 2 8 1 157866547 SYETGSSTL 3 1 1 2 157868585 AGPASLLSL 29 28 165 14 157869223 HYSTVAKEL 4 13 12 1 157870434 AYSVSASSL 1 1 2 1 157872522 SGPAAAVAL 31 17 72 10 157874367 SGQQNAATL 1000 21 64 10 157874945 SYEPVLSSL 1 1 6 1

Fonte: Próprio autor.

O valor de rank pode variar entre 1 (previsão correta) até a quantidade de epítopos presentes no resultado da predição. Quanto maior o rank pior é a previsão realizada pelo site para o epítopo. Analisando os resultados obtidos na Tabela 1, o site SYFPEITHI possui uma maior taxa de acerto por prever os epítopos na primeira posição, desde modo, este site possui

(29)

uma qualidade superior, e consequentemente a pontuação atribuída também será superior em relação aos outros sites.

Sendo um epítopo definido como previsto corretamente quando aparece na primeira posição, podemos estabelecer uma relação de acerto para cada epítopo. Essa relação é definida pela Equação 1.

𝑃𝑒 =𝑟𝑎𝑛𝑘1 (1)

Em que:

Pe – Pontuação do epítopo; rank – Posição do epítopo.

De acordo com a Equação 1, o maior valor da Pe será 1, quando o epítopo for predito corretamente em primeiro lugar (rank igual a 1). A partir daí, a Pe decresce exponencialmente de acordo com a posição do epítopo na lista, em que, uma Pe baixa indica que o epítopo não foi predito corretamente. A Tabela 2 apresenta os valores das Pe’s calculados conforme a Equação 1.

Tabela 2: Pontuação dos epítopos de referência.

Proteína Epítopo Pe (Pontuação do Epítopo)

Bimas IEDB C. NETMHC SYFPEITHI

546454 VGPQSVGPL 0,25 0,333 0,038 0,2 1078694 ADKPDESTL 0,2 0,5 0,2 0,2 68124672 RYDQLVTRV 0,166 0,25 0,25 1 68124672 SYAGLCANV 0,142 0,333 0,1 1 68124790 AGQPTAATL 0,076 0,062 0,52 0,166 68128373 FYNSTVTSL 1 1 1 1 72546734 QGEAEAATL 0,083 0,013 0,032 0,083 72549459 SYENTEDEL 1 1 0,2 1 73536656 SYSSLVSAL 0,5 1 1 1 73537023 FYQEAAELL 0,5 0,2 0,2 1 76363734 GGGSGILGT 0,052 0,011 0,016 0,076 157866344 VYNQVEEQL 1 0,5 0,125 1 157866547 SYETGSSTL 0,333 1 1 0,5 157868585 AGPASLLSL 0,034 0,035 0,006 0,071 157869223 HYSTVAKEL 0,25 0,076 0,083 1 157870434 AYSVSASSL 1 1 0,5 1 157872522 SGPAAAVAL 0,32 0,058 0,013 0,01 157874367 SGQQNAATL 0,001 0,047 0,015 0,01 157874945 SYEPVLSSL 1 1 0,166 1

(30)

Com base nos resultados obtidos na Tabela 2 é possível determinar uma pontuação para cada site a partir da média aritmética simples de todos os valores da Pe. Por convenção, esse resultado é multiplicando por 10 para que a nota do site pertença ao intervalo entre zero e dez, conforme apresentado na Equação 2.

𝑁𝑠 = 10𝑁 ∗ 𝑃𝑒! ! !!! (2) Em que: Ns – Nota do site;

N – Quantidade de epítopos de referência; Pe – Pontuação do epítopo.

Com base neste critério, os resultados são apresentados na Tabela 3.

Tabela 3: Notas dos sites preditores.

Site Nota (Ns)

Bimas 4,0

IEDB Consensus 4,4

NETMHC 2,8

SYFPEITHI 6,1

Fonte: Próprio autor.

No resultado apresentado pela Tabela 3, o site SYFPEITHI foi classificado como o que teve a melhor taxa de acerto. Desta forma este site é o recomendado pelo EPIBOT para a realização de previsões para identificação de novos epítopos.

Com a utilização das Equações 1 e 2 e a partir de um conjunto de epítopos de referência é possível comparar a qualidade de predição dos sites para uma busca específica, neste caso para organismo dos ratos. Porém, esse método pode ser aplicado independente do organismo em questão, bastando utilizar epítopos de referência específico ao organismo a ser analisado.

(31)

3.3. Característica de desenvolvimento da ferramenta EPIBOT

Devido à portabilidade, código aberto e livre de restrições quanto ao seu uso e distribuição o desenvolvimento da ferramenta EPIBOT foi realizado em linguagem de programação Java.

Para a execução das consultas automáticas aos sites preditores foi utilizado a biblioteca JavaBot, sendo utilizada a versão 1.1 disponibilizada no site http://www.heatonresearch.com/articles/series/16/. Essa biblioteca disponibiliza classes com métodos capazes de processar informações no formato HTML para o envio e recebimento de dados, auxiliando na implementação dos web crawlers.

Para o armazenamento dos resultados das qualificações foi utilizado o gerenciador de banco de dados SQLite por ser é um software gratuito e multiplataforma, sendo utilizada a versão 3.5 disponibilizada no site http://www.sqlite.org/.

(32)

4. RESULTADOS

Neste capítulo serão apresentados como resultados obtidos a ferramenta EPIBOT e as análises realizadas a partir do método de qualificação dos sites desenvolvido, com objetivo de demostrar a eficiência do método proposto neste trabalho.

4.1. Ferramenta EPIBOT

A ferramenta EPIBOT está disponível para download no endereço http://sites.ecomp.uefs.br/angeloduarte/epibot. A Figura 13 mostra a tela inicial do sistema, na qual é possível ao usuário acessar todas as funcionalidades disponíveis pelo menu de opções.

Figura 13: Tela inicial da ferramenta EPIBOT.

Fonte: Próprio autor.

O processo de qualificação dos sites está disponível na opção “New qualify” no menu, sendo necessário a inserção de arquivo(s) contendo as sequências genéticas no formato

(33)

FASTA, a inserção de arquivo(s) dos epítopos de referência no formato CSV (código da proteína e epítopo separados por vírgula) e para a escolha de quais sites serão utilizados durante o processo comparação de qualidade de predição (Figura 14).

Figura 14: Etapas para qualificação dos sites pelo EPIBOT.

Fonte: Próprio autor.

Com a conclusão da qualificação o EPIBOT irá apresentar a nota atribuída para cada site utilizado no processo (Figura 15).

(34)

Figura 15: Resultado da qualificação apresentado pelo EPIBOT.

Fonte: Próprio autor.

4.2. Análise dos resultados da ferramenta EPIBOT

Neste tópico serão descritos as etapas envolvidas na análise das qualificações geradas pela ferramenta EPIBOT com propósito de validar seus resultados. Desta forma, o processo de qualificação é submetida a uma análise mais flexível dos epítopos de referência com objetivo de comprovar que o site classificado com a nota mais alta é de fato o mais apropriado para buscas de novos epítopos.

Os dados utilizados pra o desenvolvimento deste processo foram disponibilizados pelo Dr. Artur Queiroz do Laboratório de Imunologia (LIP) do Centro de Pesquisas Gonçalo Moniz da Fundação Oswaldo Cruz (CPqGM/FIOCRUZ), contendo um conjunto de 289 proteínas e 748 epítopos de referência. A análise foi realizada apenas para o organismo dos Ratos, especificamente para as moléculas H2-Kb, H2-Kd e H2-Kk, cujos tamanhos das subsequências são 8, 9 e 10.

Primeiramente, foram submetidas todas as proteínas aos sites preditores referente a cada molécula e tamanho, e aplicado o método de qualificação dos sites (Figura 16).

(35)

Figura 16: Resultado da qualificação dos sites pelo EPIBOT.

Fonte: Próprio autor.

Como as notas geradas pelo EPIBOT foram baixas, significa que os sites preditores não conseguiram prever todos os epítopos de referência exatamente na 1ª posição, mas podem está prevendo estes epítopos em posições próximas a 1ª posição. Desta forma, é indispensável uma análise mais flexível das previsões em relação aos epítopos de referência, analisando não apenas a 1ª posição, mas analisando um subconjunto dos epítopos preditos, ou seja, para um epítopo de referência ser considerado como “previsto corretamente” ele deve pertencer a um subconjunto definido por um valor que determina a separação entre o grupo de epítopos previstos e os não previstos corretamente, esse valor é denominado de limiar. Por exemplo, ao definir um limiar de valor 3, os epítopos de referência serão considerados como “previsto corretamente” se aparecerem entre a 1ª e a 3ª posição de classificação.

Para esta análise os valores das Pe’s para os epítopos de referência cuja classificação seja superior ao limiar (epítopos não pertencentes ao subconjunto definido pelo limiar) é aplicado a Equação 1, caso contrário a Pe será igual a 1. A Figura 17 apresenta o gráfico contendo a nota de cada site preditor obtido pela aplicação da Equação 2 para as Pe’s referente a cada valor de limiar variando de 1 a 100.

Com a analise dos dados da Figura 17 o site IEDB Consensus se mantem superior a todos os outros sites, pois com um limiar 5, próximo de 1, apresenta uma nota bem próxima de 8 e a partir daí a sua nota só aumenta. Já o NETMHC e o Bimas se aproximam do IEDB Consensus a partir do momento que o limiar é menos restritivo, já o SYPFETHI possui a menor nota e a partir do valor de limiar 15 não consegue acertar mais nenhum epítopo de

(36)

referência e se mantem com a nota constante. Com essa análise, o melhor site é o que apresentar a nota mais alta com o mínimo de limiar possível.

Figura 17: Gráfico de comparação entre os sites preditores.

(37)

5. CONSIDERAÇÕES FINAIS

Este trabalho teve como objetivo a criação de um sistema automático de qualificação de sites de predição de epítopos através de um processo de qualificação que determina qual site preditor de epítopo possui um alto poder preditivo para uma determinada molécula de interesse, tendo como base conjuntos de epítopos de referências. A ferramenta criada para a execução das qualificações, denominada de EPIBOT, permitiu a comparação da qualidade de predição de quatro sites de consulta pública que são popularmente utilizados para predição de epítopos, com o propósito de determinar qual site é o mais propício a gerar predições eficazes.

Dificuldades foram encontradas no desenvolvimento da ferramenta EPIBOT devido à programação dos web crawlers em relação as consultas automáticas aos sites preditores, pois podem ocorrer mudanças na estrutura dos sites por conta de correção de bugs e manutenções realizadas pelo administrador do site. Com isso, manutenções realizadas na estrutura dos sites impossibilitam novos acessos pelos web crawlers. Esse problema é solucionado reprogramando os web crawlers conforme a nova estrutura do site, deste modo, toda vez que um site muda sua estrutura é disponibilizado uma versão atualizada da ferramenta EPIBOT.

Com relação às perspectivas futuras, planeja-se fornecer aos pesquisadores um método computacional capaz de produzir uma lista de epítopos candidatos a serem submetidos a testes laboratoriais. Este novo método consiste em qualificar os epítopos individualmente de forma a consolidar os resultados dos diferentes sites produzindo uma predição unificada, visando fornecer para os pesquisadores apenas os melhores epítopos baseado nas previsões realizadas por todos os sites preditores.

Esta monografia visou colaborar para a pesquisa e desenvolvimento, dando sua parcela de contribuição para os métodos de bioinformática com foco na predição de epítopos. Sendo o método desenvolvido é o pioneiro na bioinformática por não existir na literatura nenhum trabalho relacionado à qualificação de sites preditores de epítopos e a utilização de web crawlers para automatizar os acessos a métodos de bioinformática disponibilizados por sites na Internet. A ferramenta EPIBOT está pronta para ser utilizada por pesquisadores da área de construção de vacinas e/ou em novas pesquisas de Bioinformática tendo em vista o desenvolvimento de novos métodos para a predição de epítopos, focando na melhoria no processo de busca in-silico de epítopos.

(38)

6. REFERÊNCIAS

ABBAS, A. K.; LICHTMAN, A. H. Imunologia Celular e Molecular. 5 ed. Rio de Janeiro: Elsevier, 2005.

BAEZA-YATES, R.; CASTILLO, C. Balancing volume, quality and freshness in web crawling. In: SOFT COMPUTING SYSTEMS – Design, Management and Applications, 2002, p. 565–572, Santiago, Chile.

BALDI, P.; BRUNAK, S. Bioinformatics: The Machine Learning Approach. 2. ed. Massachusetts: MIT Press, 2001.

BOAVENTURA, V.S. et al. Concomitant early mucosal and cutaneous leishmaniasis in Brazil, 2008. Disponível em: <http://www.ajtmh.org/cgi/content/full/75/2/267>. Acesso em: 02 abr. 2012.

DANCHIN, A.; MEDIGUE, C.; GASCUEL, O.; SOLDANO, H.; HENAUT, A. From data banks to data bases. Res Microbiol. 1991.

DNDi (Drugs for Neglected Diseases Initiative) e Abbott Ampliam Parceria, 2012. Disponível em :

<https://www.abbottbrasil.com.br/abbott/Portugues/detRelease.php?codrelease=12>. Acesso em: 16 Dez 2013.

DOYTCHINOVA, Irini A.; GUAN, Pingping; FLOWER, Darren R. EpiJen: a server for multistep T cell epitope prediction. BMC Bioinformatics, 2008. Disponível em: <http://www.biomedcentral.com/1471-2105/7/131>. Acesso em: 01 Ago 2012.

GUTHMANN, Jean-Paul et al. Control of mucocutaneous leishmaniasis, a neglected disease: results of a control programme in Satipo Province. Tropical Medicine & International Health, v.10, p. 856-862, set, 2005. Disponível em: <http://www.blackwell-synergy.com/doi/full/10.1111/j.1365-3156.2005.01460.x>. Acesso em: 01 Ago 2012.

(39)

HEATON, J. Programming Spiders, Bots, and Aggregations in Java (em inglês). San Francisco: Sybex, 2002. 516 p. p. 350-352. ISBN 0-7821-4040-8

JENSEN, P.E. Recent advances in antigen processing and presentation. Nat Immunol, v. 8, p. 1041-1048, 2007.

LUCCHESE, A.; STEVANOVIC, S.; SINHA, A.; MITTELMAN, A.; KANDUC, D. Role of MHC II affinity and molecular mimicry in defining anti-HER-2/neu MAb-3 linear peptide epitope. Peptides, v. 24, n. 2, p. 193-197, 2003.

MAHAN, L. Kathleen; ESCOTT-STUMP, Sylvia. Krause - Alimentos, Nutrição e Dietoterapia. 11. ed. São Paulo: Roca, 2005.

MENAKA, K.; JONES, E. Y. MHC superfamily structure and the immune system. Curr Opin Struct Biol, v. 9, p. 745-753, 1999.

Mundo Educação. Disponível em: <http://www.mundoeducacao.com/doencas/leishmaniose-visceral.htm>. Acesso em: 16 Dez 2013.

OMS (Organização Mundial da Saúde), 2010. Disponível em: <http://www.who.int>. Acesso em: 16 Dez 2013.

PETERS, B.; SIDNEY, J.; BOURNE, P.; BUI, H.H.; BUUS, S.; DOH, G.; FLERI, W.; KRONENBERG, M.; KUBO, R.; LUND, O.; NEMAZEE, D.; PONOMARENKO, J.V.; SATHIAMURTHY, M.; SCHOENBERGER, S.; STEWART, S.; SURKO, P.; WAY, S.; WILSON, S.; SETTE, A. The immune epitope database and analysis resource: from vision to blueprint. PLoS Biol, v.3, n. 3, p. 379-381, 2005.

PORTAL EDUCAÇÃO - Cursos Online, 2012.

Disponível em: <http://www.portaleducacao.com.br/biologia/artigos/16652/mapeamento-de-epitopos#ixzz2nkH0m04i>. Acesso em: 17 Dez 2013.

(40)

SMITH, DEBORAH F.; PEACOCK, CHRISTOPHER S.; CRUZ, ANGELA K. Comparative genomics: From genotype to disease phenotype in the leishmaniases. In: INTERNATIONAL JOUNAL FOR PARASITOLOGY, 37., 2007, Australian. Proceedings... Australian: Elsevier, 2007, p. 1173–1186.

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

The strict partition problem is relaxed into a bi-objective set covering problem with k-cliques which allows over-covered and uncovered nodes.. The information extracted

A participação foi observada durante todas as fases do roadmap (Alinhamento, Prova de Conceito, Piloto e Expansão), promovendo a utilização do sistema implementado e a

Ainda segundo Gil (2002), como a revisão bibliográfica esclarece os pressupostos teóricos que dão fundamentação à pesquisa e às contribuições oferecidas por

Predicted values were calculated by measuring the joint probability of effects on isopods’ biomass variation found for single exposures to different soil

c.4) Não ocorrerá o cancelamento do contrato de seguro cujo prêmio tenha sido pago a vista, mediante financiamento obtido junto a instituições financeiras, no

Os autores relatam a primeira ocorrência de Lymnaea columella (Say, 1817) no Estado de Goiás, ressaltando a importância da espécie como hospedeiro intermediário de vários parasitos