• Nenhum resultado encontrado

Análise de estruturas de proteínas

N/A
N/A
Protected

Academic year: 2021

Share "Análise de estruturas de proteínas"

Copied!
142
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Inform´atica. P´os-gradua¸c˜ao em Ciˆencia da Computa¸c˜ao. ´ ANALISE DE ESTRUTURAS DE PROTE´INAS Jeane Cec´ılia Bezerra de Melo TESE DE DOUTORADO. Recife 12 de Agosto de 2005.

(2) Universidade Federal de Pernambuco Centro de Inform´atica. Jeane Cec´ılia Bezerra de Melo ´ ANALISE DE ESTRUTURAS DE PROTE´INAS. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para obten¸ c˜ ao do grau de. Doutor em Ciˆ encia da Com-. puta¸ c˜ ao.. Orientadora: Katia Silva Guimar˜ aes Co-orientadora: Marie-France Sagot. Recife 12 de Agosto de 2005.

(3) Melo, Jeane Cecília Bezerra de Análise de estruturas de proteínas / Jeane Cecília Bezerra de Melo. – Recife : O Autor, 2005. xv, 125 folhas : il., fig., tab. Tese (doutorado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, 2005. Inclui bibliografia e apêndices. 1. Ciência da computação – Teoria da computação – Algoritmos. 2. Biologia computacional – Estruturas de proteínas. 3. Estrutura secundária – Predição – Redes neurais – Estrutura terciária – Comparação – Teoria dos grafos. 4. Predição – Aplicação de PCA (Principal Components Analysis) e ICA (Independent Components Analysis). 5. Comparação – Isomorfismo de grafos. I. Título. 004.021 006.32. CDU (2.ed.) CDD (22.ed.). UFPE BC2005-601.

(4) A Elione e Luisa, m˜ ae e filha..

(5) AGRADECIMENTOS. Meus sinceros agradecimentos a todas as pessoas que contribu´ıram, direta ou indiretamente, para a realiza¸ca˜o deste trabalho. Aos membros da Banca Examinadora pelas cr´ıticas e sugest˜oes. Em particular, a Ademir Amaral pelo despertar para a Ciˆencia durante o 2o¯ Grau. A Katia pela orienta¸ca˜o e pela oportunidade de participar do BioLab. A Francisco, Obionor, Taciana, Walkiria e demais membros do BioLab pelo compa´ nheirismo e incentivo. Em particular, a Erico e Gustavo pela amizade, prestatividade, e colabora¸co˜es diretas no desenvolvimento deste trabalho. A Paulo Gustavo pelo incentivo e pelas dicas sobre o LATEX. A Marie-France pela forma atenciosa e sens´ıvel com que me recebeu em Lyon, pela orienta¸ca˜o e pelo apoio, fundamentais para a finaliza¸ca˜o deste trabalho. A Susana, Leonor, Said, Vincent, Eric e demais companheiros do Baobab. ` pessoas que comp˜oem o LBBE, na Universit´e Claude Bernard, pela hospitalidade. As Em particular, a Christian Gautier pelas sugest˜oes e a Laurent Duret e Manolo Gouy pelo apoio. A Celine, Manon, Emilie, Rachid e Ann, pessoas especiais que conheci durante minha estadia na Fran¸ca. A Ahlem Hkimi pela amizade, pelo est´ımulo e pelos momentos divertidos e instrutivos que passamos juntas. A Enaura, Luciana e Rosana, amigas desde a adolescˆencia. A Liliane e Patr´ıcia pela amizade e incentivo. A George pela amizade e pelas orienta¸co˜es em Redes Neurais. A Alcione, amiga sempre t˜ao pr´oxima mesmo morando distante. A Ros´alia pela disponobilidade e cuidados dispensados aos meus processos. A Adriana, Magnus e Gabriel, pelo apoio de sempre. A Marco pelo companheirismo, incentivo e apoio que colaboraram de maneira decisiva para a realiza¸ca˜o deste trabalho. Ao CNPq, a` AlBan e a` Universidade Federal Rural de Pernambuco pelo apoio financeiro. v.

(6) RESUMO. Neste trabalho s˜ao tratados dois problemas relacionados a` an´alise estrutural de prote´ınas. O primeiro, denominado Predi¸ca˜o de Estrutura Secund´aria, diz respeito a um importante passo na inferˆencia da conforma¸ca˜o espacial de uma prote´ına: a localiza¸ca˜o de subestruturas recorrentes a partir de informa¸co˜es referentes a` sua seq¨ uˆencia de amino´acidos. O segundo refere-se ao desenvolvimento de m´etodos para efetuar a Busca e Compara¸ca˜o de Padr˜oes Estruturais, os quais podem ser utilizados para a classifica¸ca˜o de prote´ınas ou mesmo na localiza¸ca˜o de poss´ıveis s´ıtios ativos. A abordagem aqui apresentada para a predi¸ca˜o de estrutura secund´aria engloba um estudo cr´ıtico dos principais preditores dispon´ıveis na atualidade, al´em do desenvolvimento de um novo preditor objetivando propor um tratamento simples e eficiente para tal problema. Tal preditor alcan¸cou um percentual de acerto de 75,9%, o melhor desempenho conhecido sobre o banco de dados em que o mesmo foi desenvolvido. Os resultados significativos obtidos motivaram a realiza¸ca˜o de novos experimentos. M´etodos de extra¸ca˜o de caracter´ısticas foram ent˜ao aplicados aos dados informados ao preditor, um procedimento in´edito para a predi¸ca˜o de estrutura secund´aria. Uma an´alise comparativa do comportamento do preditor mediante a presen¸ca ou n˜ao de uma fase de redu¸ca˜o de dimensionalidade foi tamb´em realizada. Para efetuar a busca e a compara¸ca˜o de padr˜oes estruturais foi proposta uma representa¸ca˜o simplificada para as estruturas de prote´ınas. Tal representa¸ca˜o envolve informa¸co˜es sobre os elementos de estrutura secund´aria e intera¸co˜es espaciais entre estes, considerando a inclus˜ao de parˆametros in´editos para este tipo de abordagem. Algoritmos cl´assicos da Teoria dos Grafos foram adaptados para tratar o problema de busca de ocorrˆencias de “motivos”estruturais e detec¸ca˜o de subestruturas comuns a um dado conjunto de prote´ınas. O algoritmo para a busca por motivos estruturais mostrou-se eficiente em testes realizados com conjuntos de prote´ınas globulares. Um ponto diferencial do m´etodo desenvolvido para a detec¸ca˜o de subestruturas comuns ´e que este possibilita a an´alise de todas as prote´ınas do grupo ao mesmo tempo, enquanto a maioria das abordagens dispon´ıveis atualmente constroem o alinhamento m´ ultiplo comparando as prote´ınas duas a duas. vi.

(7) resumo. vii. Palavras-chave: Proteˆomica, predi¸ca˜o de estrutura secund´aria, extra¸ca˜o de caracter´ısticas, compara¸ca˜o de estruturas terci´arias, redes neurais, isomorfismo de grafos..

(8) ABSTRACT. In this work two problems related to the protein structural analysis are dealt with. The first one, called Secondary Structure Prediction, concerns an important step in the inference of the space conformation of a protein: the localization of recurrent substructures from information related with its amino acid sequence. The second one, consists of the development of methods to perform Search and Comparison of Structural Patterns that can be used for protein classification or even in the localization of possible active sites. The approach here presented for secondary structure prediction includes a critical review of the main predictors available nowadays, besides the development of a new predictor aiming to propose a simple and efficient method for such a problem. Such a predictor reached a percentage of 75.9% correctness, the best performance known on the database in which it was developed. The significant results accomplished have motivated new performance experiments. Methods of feature extraction then have been applied to the data informing the predictor, an original procedure for the secondary structure prediction. A comparative analysis of the performance of the predictor by means of the presence or absence of a phase of dimensionality reduction was also performed. To perform the search and comparison of structural patterns a simplified representation for the protein structures was proposed. Such representation involves information about the secondary structure elements and interactions between them, considering the inclusion of original parameters for this approach. Classical Graph Theory algorithms have been adapted to deal with the problem of the search for structural “motifs”occurrences and detection of common substructures in a set of protein data. The algorithm for searching for structural motifs revealed efficiency in tests performed with sets of globular proteins. A differential point of the method developed for the detection of common substructures is that it makes possible the analysis of all the proteins of the group at the same time, while the majority of approaches currently available use to construct the multiple alignments by pairwise comparison. Keywords: Proteomics, secondary structure prediction, feature extraction, tertiary structure comparison, neural networks, graph isomorphism. viii.

(9) ´ SUMARIO. Cap´ıtulo 1—Introdu¸c˜ ao. 1. Cap´ıtulo 2—Conceitos B´ asicos e Terminologia. 8. 2.1 2.2. 2.3. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . Fundamentos Biol´ogicos . . . . . . . . . . . . . . . . . . 2.2.1 Estrutura Prim´aria . . . . . . . . . . . . . . . . . 2.2.2 Estrutura Secund´aria . . . . . . . . . . . . . . . . 2.2.3 Estruturas Intermedi´arias . . . . . . . . . . . . . 2.2.4 Estruturas Terci´aria e Quatern´aria . . . . . . . . Fundamentos Computacionais . . . . . . . . . . . . . . . 2.3.1 Redes Neurais Artificiais . . . . . . . . . . . . . . 2.3.1.1 Apresenta¸ca˜o . . . . . . . . . . . . . . . 2.3.1.2 Unidade B´asica . . . . . . . . . . . . . . 2.3.1.3 Redes MLP e Algoritmo de Treinamento 2.3.1.4 Outros Exemplos de Redes . . . . . . . 2.3.2 Conceitos B´asicos sobre Grafos . . . . . . . . . . 2.3.2.1 Defini¸co˜es B´asicas e Terminologias . . . 2.3.2.2 Rela¸co˜es e Opera¸co˜es entre Grafos . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. 8 8 11 13 17 18 22 23 23 23 24 28 30 30 31. Cap´ıtulo 3—Predi¸c˜ ao de Estrutura Secund´ aria de Prote´ınas atrav´ es de Redes Neurais Artificiais 33 3.1 3.2. 3.3. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Abordagem B´asica . . . . . . . . . . . . . . . . . . . . 3.2.2 Varia¸co˜es na Entrada de Dados . . . . . . . . . . . . . 3.2.3 Abordagens atrav´es de Perfis e Alinhamentos M´ ultiplos O Preditor de Estrutura Secund´aria NNPSS . . . . . . . . . . ix. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 33 34 34 36 40 45.

(10) ´ rio suma. 3.4 3.5 3.6. 3.3.1 Dados Utilizados . . . . . . . 3.3.2 M´etodo de Avalia¸ca˜o . . . . . 3.3.3 Algoritmo de Treinamento . . 3.3.4 Combina¸ca˜o de Classificadores Resultados . . . . . . . . . . . . . . . An´alise Estat´ıstica dos Resultados . . Vers˜ao webserver do NNPSS . . . . .. x . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. 46 47 48 48 50 53 54. Cap´ıtulo 4—Predi¸c˜ ao de Estrutura Secund´ aria com Extra¸c˜ ao de Caracter´ısticas 58 4.1 4.2. 4.3. 4.4. 4.5. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Extra¸ca˜o de Caracter´ısticas Atrav´es da PCA . . . . . . . . . . . . . . . 4.2.1 O M´etodo PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Metodologia Aplicada no Experimento com a PCA . . . . . . . 4.2.2.1 Dados Utilizados . . . . . . . . . . . . . . . . . . . . . 4.2.2.2 M´etodo de Avalia¸ca˜o . . . . . . . . . . . . . . . . . . . 4.2.2.3 Algoritmo de Treinamento . . . . . . . . . . . . . . . . 4.2.2.4 Arquitetura e Regras de Combina¸ca˜o de Classificadores 4.2.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Extra¸ca˜o de Caracter´ısticas Atrav´es da ICA . . . . . . . . . . . . . . . 4.3.1 O M´etodo ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Metodologia Aplicada no Experimento com a ICA . . . . . . . . 4.3.2.1 Dados Utilizados . . . . . . . . . . . . . . . . . . . . . 4.3.2.2 M´etodo de Avalia¸ca˜o . . . . . . . . . . . . . . . . . . . 4.3.2.3 Algoritmo de Treinamento . . . . . . . . . . . . . . . . 4.3.2.4 Arquitetura e Regras de Combina¸ca˜o de Classificadores 4.3.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . An´alise Comparativa dos Experimentos . . . . . . . . . . . . . . . . . . 4.4.1 Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Arquitetura e Dados de Entrada . . . . . . . . . . . . . . . . . . 4.4.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . An´alise Estat´ıstica dos Resultados . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. Cap´ıtulo 5—Compara¸c˜ ao e Detec¸c˜ ao de Padr˜ oes Estruturais em Prote´ınas 5.1 5.2. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Compara¸ca˜o de Prote´ınas Atrav´es de Elementos de Estrutura Secund´aria. 58 60 60 63 63 64 64 64 65 68 69 70 70 71 71 71 72 74 75 75 76 78 80 80 83.

(11) ´ rio suma 5.3 5.4 5.5 5.6. Representa¸ca˜o de Estruturas de Prote´ınas . . . . . . . . . . Algoritmo para Busca de Ocorrˆencias de Motivos Estruturais Algoritmo para Busca de Subestruturas Maximais . . . . . . Resultados e Discuss˜ao . . . . . . . . . . . . . . . . . . . . .. xi . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. Cap´ıtulo 6—Conclus˜ oes e Trabalhos Futuros 6.1 6.2. 90 95 97 101 103. Predi¸ca˜o de Estrutura Secund´aria de Prote´ınas . . . . . . . . . . . . . . Compara¸ca˜o e Detec¸ca˜o de Padr˜oes Estruturais em Prote´ınas . . . . . . .. 103 105. Apˆ endice A—Tabelas de Experimentos Realizados com os Dados Completos. 108. Apˆ endice B—Tabelas de Experimentos Realizados com a PCA. 110. Apˆ endice C—Tabelas de Experimentos Realizados com a ICA. 111. Apˆ endice D—Tabela de Experimentos Realizados com o Perfil PSI Blast. 112.

(12) LISTA DE FIGURAS. 1.1 1.2 1.3. Dos genes a`s prote´ınas . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gr´afico de crescimento do conte´ udo do PDB . . . . . . . . . . . . . . . . Identifica¸ca˜o de SSEs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24. Alinhamento m´ ultiplo de prote´ınas . . . . . . . . . Os quarto n´ıveis de arquitetura de uma prote´ına . . A estrutura b´asica de um amino´acido padr˜ao . . . . Liga¸co˜es covalentes na mol´ecula de prote´ına . . . . Parte inicial da estrutura prim´aria da hemoglobina Ilustra¸ca˜o dos aˆngulos φ, ψ e ω . . . . . . . . . . . Representa¸co˜es esquem´aticas de uma h´elice α . . . H´elices α na conforma¸ca˜o coiled-coil . . . . . . . . . Folhas β . . . . . . . . . . . . . . . . . . . . . . . . Prote´ına tioredoxina da E. coli . . . . . . . . . . . . Representa¸ca˜o esquem´atica de um hairpin-loop . . . Exemplos de motivos h´elice-la¸co-h´elice . . . . . . . Motivos . . . . . . . . . . . . . . . . . . . . . . . . Exemplo de dom´ınio α . . . . . . . . . . . . . . . . Exemplo de dom´ınio β . . . . . . . . . . . . . . . . Exemplo de dom´ınio α/β . . . . . . . . . . . . . . . Exemplo de dom´ınio α + β . . . . . . . . . . . . . . Raio de van der Waals . . . . . . . . . . . . . . . . Gr´afico de Ramachandran . . . . . . . . . . . . . . Modelo MCP . . . . . . . . . . . . . . . . . . . . . Exemplo de arquitetura MLP . . . . . . . . . . . . Exemplo de arquitetura RBF . . . . . . . . . . . . Exemplo de rede recorrente . . . . . . . . . . . . . Exemplo de grafo . . . . . . . . . . . . . . . . . . .. xii. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. 2 4 5 10 11 12 13 13 14 14 15 15 16 16 18 19 20 20 20 20 21 22 24 25 29 30 31.

(13) xiii. LISTA DE FIGURAS 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10. Estrutura da rede proposta por Qian e Sejnowski . . . . . . . . . . Exemplo de perfil PSI Blast . . . . . . . . . . . . . . . . . . . . . . Arquitetura de uma rede BRNN . . . . . . . . . . . . . . . . . . . . Arquitetura do preditor NNPSS . . . . . . . . . . . . . . . . . . . . Resultados obtidos com o banco RS126, utilizando perfis PSI Blast Resultados obtidos com o banco CB396, utilizando perfis PSI Blast Janela inicial do NNPSS . . . . . . . . . . . . . . . . . . . . . . . . Exemplo de entrada do NNPSS . . . . . . . . . . . . . . . . . . . . N´ umero de identifica¸ca˜o da submiss˜ao . . . . . . . . . . . . . . . . Resultado do NNPSS . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. 35 40 41 49 51 52 55 56 57 57. 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11. Conjunto de pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . Componentes principais . . . . . . . . . . . . . . . . . . . . . . . . Rota¸ca˜o do conjunto de dados . . . . . . . . . . . . . . . . . . . . . Arquitetura utilizada no experimento com a PCA . . . . . . . . . . Extra¸ca˜o de caracter´ıstica de perfis PSI Blast atrav´es da PCA . . . Extra¸ca˜o de caracter´ıstica dos perfis PSI Freq atrav´es da PCA . . . Extra¸ca˜o de caracter´ıstica dos perfis PSI Blast CS atrav´es da PCA Arquitetura usada no experimento com a ICA . . . . . . . . . . . . Extra¸ca˜o de caracter´ısticas de perfis PSI Blast atrav´es da ICA . . . Compara¸ca˜o dos melhores desempenhos Q3 obtidos . . . . . . . . . Arquitetura utilizada nos trˆes experimentos . . . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. 61 62 63 65 66 67 68 71 72 73 76. 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9. Exemplo de cart˜ao TOPS . . . . Exemplo de diagrama TOPS . . . Exemplo de container . . . . . . . Enquadramento do eixo da h´elice Vetor associado a uma fita . . . . Classes de geometria de intera¸ca˜o Duas formas de dividir os aˆngulos Prote´ına acylphospahtase . . . . . Exemplo de produto de grafos . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. 86 87 89 91 91 92 92 93 98. . . . . . . . . . . . . em . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . quadrantes . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . ..

(14) LISTA DE TABELAS. 2.1. Os 20 amino´acidos que ocorrem naturalmente nas prote´ınas. . . . . . . .. 3.1. Desempenho Q3 m´edio para predi¸co˜es sobre os bancos RS126 e CB396. 4.1. .. 9 53. 4.3. Compara¸ca˜o do desempenho Q3 m´edio para experimentos com CB396 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Compara¸ca˜o do desempenho Q3 m´edio incluindo experimentos tra¸ca˜o de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . Compara¸ca˜o dos Experimentos . . . . . . . . . . . . . . . . . .. o banco . . . . . com ex. . . . . . . . . .. 74 77. 5.1. Representa¸ca˜o matricial para a estrutura da prote´ına acylphosphatase . .. 93. A.1 Resultados obtidos com os perfis PSI Blast e PSI Freq - Banco CB396 . . A.2 Perfil PSI Blast (sem filtro) - Banco RS126 . . . . . . . . . . . . . . . . .. 109 109. B.1 M´etodo PCA aplicado a perfis PSI Blast (sem filtro) - Banco CB396. . .. 110. C.1 M´etodo ICA aplicado a perfis PSI Blast (sem filtro) - Banco CB396 . . .. 111. D.1 Experimentos realizados com os perfis PSI Blast - Banco CB396 . . . . .. 112. 4.2. xiv. 69.

(15) LISTA DE ABREVIATURAS. BRNN - Redes neurais recorrentes bidirecionais (do inglˆes Bidirectional Recurrent Neural Networks) ´ DNA - Acido desoxirribonucl´eico (do inglˆes DeoxyriboNucleic Acid) HMM - Modelo Oculto de Markov (do inglˆes Hidden Markov Model) HSSP - Homology-derived Secondary Structure of Proteins ICA - An´alise de componentes independentes (do inglˆes Independent Components Analysis) MLP - Multi-Layer Perceptron NNPSS - Neural Network based Protein Secondary Structure prediction NCBI - National Center for Biotechnology Information PCA - An´alise de componentes principais (do inglˆes Principal Components Analysis) PDB - Protein Data Bank PSI-Blast - Position Specific Iterative Blast PSSM - Position Specific Scoring Matrix RBF - Rede de fun¸ca˜o de base radial (do inglˆes Radial Basis Function) RCSB PDB - Research Collaboratory for Structural Bioinformatics Protein Data Bank RMSD - Desvio quadr´atico m´edio (do inglˆes Root Mean Squared Deviation) RNAs - Redes Neurais Artificiais RPROP - Resilient PROPagation SSE - Elemento de estrutura secund´aria (do inglˆes Secondary Structure Element) xv.

(16) lista de abreviaturas SSMMs - Segmental Semi-Markov Models SSSD - Structurally-Similar, Sequence-Dissimilar. xvi.

(17) CAP´ITULO 1. ˜ INTRODUC ¸ AO. O interesse pela Gen´etica e pela An´alise de Seq¨ uˆencias Biol´ogicas tais como DNA e prote´ınas aumentou significantemente desde o in´ıcio do projeto Genoma Humano em meados de 1990. Projetos de seq¨ uenciamento de outros organismos ganharam espa¸co no ambiente acadˆemico impulsionados pela amplitude de suas aplica¸co˜es. Especificamente no Brasil, pode-se observar contribui¸co˜es significativas nesta a´rea atrav´es de projetos como Xylella Fastidiosa Genome Project [Simpson et al., 2000], Sugar Cane EST Genome Project (http://sucest.lad.ic.unicamp.br/en/) e Human Cancer Genome Project (http://www.ludwig.org.br/ORESTES/). O grande n´ umero de dados gerados tornou necess´ario a aplica¸ca˜o e o desenvolvimento de m´etodos computacionais para trat´a-los. Dentre as a´reas da Ciˆencia da Computa¸ca˜o que tˆem contribu´ıdo para o avan¸co da Biologia Molecular podemos destacar a Teoria da Computa¸ca˜o, devido a` necessidade de utiliza¸ca˜o de algoritmos e estruturas de dados para tratar os problemas NP-completos relacionados a an´alise de seq¨ uˆencias. A diversidade de problemas em aberto bem como solu¸co˜es que precisam ser otimizadas motivam pesquisas e projetos multidisciplinares para atender a esta demanda. As possibilidades de aplica¸co˜es em a´reas estrat´egicas tais como agricultura, biodiversidade, desenvolvimento de drogas e m´etodos de diagn´ostico para doen¸cas como cˆancer e AIDS estimulam o investimento de institui¸co˜es governamentais e particulares. No entanto, obter o genoma dos organismos ´e considerado como um primeiro passo para possibilitar as aplica¸co˜es citadas previamente. Uma vez conhecido o genoma ´e necess´ario identificar todas as prote´ınas por ele expressas, bem como determinar todas as suas fun¸co˜es patol´ogicas e fisiol´ogicas (Figura 1.1). E, embora a era Genˆomica ainda possua muitos problemas em aberto, a recente finaliza¸ca˜o do seq¨ uenciamento do genoma humano provocou um novo direcionamento nas pesquisas visando obter tais elementos inaugurando assim uma nova fase, denominada Proteˆomica. A fun¸ca˜o de uma prote´ına est´a intrinsecamente ligada a` sua conforma¸ca˜o espacial. Em contraste com a relativa facilidade da determina¸ca˜o de sua seq¨ uˆencia de amino´acidos, descobrir a estrutura tridimensional de uma prote´ına n˜ao ´e uma tarefa f´acil. M´etodos tradicionais de obten¸ca˜o da conforma¸ca˜o espacial, tais como cristalografia e ressonˆancia 1.

(18) ˜o introduc ¸a. 2. Figura 1.1. Dos genes `as prote´ınas. magn´etica nuclear, s˜ao custosos e muitas vezes n˜ao s˜ao pass´ıveis de serem aplicados. Esse fato promove uma grande diferen¸ca entre o n´ umero de seq¨ uˆencias e o n´ umero de estruturas conhecidas, o que pode ser observado a partir do n´ umero de seq¨ uˆencias depositadas no Swiss-Prot [Boeckmann et al., 2003], que chegou a 192799 em agosto de 2005, contra as 32520 estruturas depositadas no mesmo per´ıodo no Protein Data Bank (PDB) [Berman et al., 2000], um dos principais bancos de estruturas de prote´ınas da atualidade, tamb´em referenciado como Research Collaboratory for Structural Bioinformatics Protein Data Bank (RCSB PDB). A exemplo do que ocorreu na era Genˆomica, m´etodos computacionais surgem como uma alternativa r´apida e econˆomica para diminuir este gap, baseando-se no fato de que a fun¸ca˜o de uma prote´ına est´a diretamente relacionada com a seq¨ uˆencia de amino´acidos que a comp˜oe [Nelson and Cox, 2000]. O problema de determinar a fun¸ca˜o de uma prote´ına vem sendo abordado de diversas formas. A an´alise pode ser puramente seq¨ uencial, atrav´es da busca por padr˜oes pr´edeterminados ou n˜ao, ou pode usar informa¸co˜es de prote´ınas de estruturas conhecidas, atrav´es de m´etodos preditivos ou comparativos. Para a an´alise seq¨ uencial, m´etodos comparativos s˜ao tradicionalmente utilizados. A seq¨ uˆencia sobre a qual desejamos obter mais informa¸co˜es ´e comparada com outras de fun¸ca˜o conhecida procurando alinhar res´ıduos idˆenticos ou similares, de modo a evidenciar semelhan¸cas locais ou globais. Dependendo do grau de similaridade alcan¸cado, a fun¸ca˜o da prote´ına pode ser inferida. Uma outra op¸ca˜o ´e efetuar a busca por ocorrˆencias.

(19) ˜o introduc ¸a. 3. de padr˜oes, os quais podem representar, por exemplo, s´ıtios ativos determinados previamente, ou simplesmente subseq¨ uˆencias que se repetem de forma exata ou aproximada [Benson and Waterman, 1994, Kannan and Myers, 1996, Sagot, 1998]. Pode-se ainda verificar se a prote´ına pertence a uma determinada fam´ılia, atrav´es da obten¸ca˜o ou localiza¸ca˜o de regi˜oes conservadas caracter´ısticas de seus membros. Tais elementos fornecem ind´ıcios para uma an´alise mais aprofundada, em se utilizando algoritmos e estruturas de dados desenvolvidos especialmente para estes fins. A an´alise funcional tamb´em pode ser efetuada atrav´es da compara¸ca˜o de estruturas conhecidas. Embora o n´ umero de estruturas determinadas seja bastante inferior ao n´ umero de seq¨ uˆencias, atualmente na propor¸ca˜o aproximada de uma estrutura para seis seq¨ uˆencias, bancos de estruturas vˆem crescendo rapidamente [Berman et al., 2000] (Figura 1.2) motivando o desenvolvimento de t´ecnicas que permitem a busca e compara¸ca˜o de tais elementos de maneira eficiente. A busca por motivos ou dom´ınios estruturais auxilia na determina¸ca˜o da fun¸ca˜o de uma prote´ına bem como na sua classifica¸ca˜o em fam´ılias. Tal procedimento contribui para a an´alise de novas estruturas, as quais recaem, em sua maioria, em fam´ılias previamente determinadas. A compara¸ca˜o de estruturas ´e um recurso utilizado, por exemplo, na an´alise de prote´ınas hom´ologas. Tais prote´ınas descendem de uma prote´ına ancestral comum que sofreu mudan¸cas devido a fatores relacionados com a evolu¸ca˜o. A busca por subestruturas comuns nesses conjuntos de prote´ınas pode determinar a localiza¸ca˜o de s´ıtios funcionais e mesmo explicar as mudan¸cas ocorridas em sua a´rvore evolutiva [Higgins and Taylor, 2000]. Uma outra abordagem utilizada ´e a inferˆencia da estrutura tridimensional a partir da seq¨ uˆencia propriamente dita, conhecida como o Problema do Dobramento de Prote´ınas (do inglˆes Protein Folding Problem), o qual foi demonstrado ser NP-dif´ıcil [Hart and Istrail, 1997], sendo um dos principais problemas em aberto da Biologia Computacional. Devido a` sua complexidade, o processo da obten¸ca˜o da estrutura ´e comumente dividido numa s´erie de passos intermedi´arios. Por exemplo, a localiza¸ca˜o, a partir da seq¨ uˆencia, de subestruturas comuns na conforma¸ca˜o 3D, tais como h´elices α, fitas β e coils (Figura 1.3), sem considerar suas intera¸co˜es espaciais. Este problema ´e conhecido como a Predi¸ca˜o de Estrutura Secund´aria de Prote´ınas. Neste trabalho s˜ao considerados dois problemas relacionados a an´alise de estrutura de prote´ınas: a predi¸ca˜o de estrutura secund´aria e a busca e compara¸ca˜o de padr˜oes estruturais. A predi¸ca˜o de estrutura secund´aria ´e um problema bem estabelecido na Biologia Com-.

(20) ˜o introduc ¸a. 4. Figura 1.2. Gr´afico de crescimento do conte´ udo do PDB.. putacional para o qual foram propostas diversas abordagens nos u ´ltimos vinte anos. Em virtude da sua velocidade e baixo custo, m´etodos computacionais surgem como uma forte alternativa para tal problema, sendo os m´etodos de aprendizagem de m´aquina, em particular redes neurais, os que tˆem produzido resultados mais satisfat´orios [Lin et al., 2005, Pollastri et al., 2002, Baldi and Brunak, 2001, Petersen et al., 2000], [Jones, 1999]. A abordagem aqui proposta para tal problema envolveu um estudo sobre os principais preditores da atualidade, onde t´ecnicas, algoritmos e dados de entrada utilizados em cada preditor foram analisados. A utiliza¸ca˜o de Perfis PSI Blast [Altschul et al., 1997] das seq¨ uˆencias como dado de entrada para as redes e a combina¸ca˜o das sa´ıdas das mesmas s˜ao t´ecnicas recorrentes para a maioria dos bons classificadores. Com base nesse estudo podemos observar ainda que, para obter melhores resultados, os recursos computacionais requeridos s˜ao cada vez maiores. Al´em da complexidade intr´ınseca a cada classificador individualmente, a maioria dos preditores combina algo como oito, onze, doze, ou mesmo oitocentas predi¸co˜es [Baldi et al., 1999], [Pollastri et al., 2002], [Rost and Sander, 1993b], [Petersen et al., 2000]. Num esfor¸co para modificar esta tendˆencia, e tendo como base o estudo relatado neste trabalho, desenvolvemos um preditor de estrutura secund´aria apresentado em [Guimar˜aes et al., 2002, Guimar˜aes et al., 2003, Guimar˜aes and Melo, 2003]. O objetivo foi obter um preditor que fosse ao mesmo tempo simples, buscando reduzir o n´ umero de.

(21) ˜o introduc ¸a. 5. Figura 1.3. Identifica¸ca˜o de elementos de estrutura secund´aria a partir da seq¨ uˆencia de prote´ına (figura retirada de [Brown, 2003]).. classificadores envolvidos, e eficiente, visando alcan¸car resultados no m´ınimo compar´aveis aos m´etodos desenvolvidos previamente. A modifica¸ca˜o na forma de obten¸ca˜o dos perfis PSI Blast, a utiliza¸ca˜o de diferentes algoritmos de treinamento e regras de combina¸ca˜o de sa´ıdas permitiram uma redu¸ca˜o consider´avel no n´ umero de classificadores envolvidos na predi¸ca˜o, mantendo ou mesmo melhorando o percentual de acerto do nosso classificador em rela¸ca˜o aos melhores dentre aqueles conhecidos e desenvolvidos em condi¸co˜es similares. Os resultados significativos alcan¸cados motivaram a realiza¸ca˜o de novos experimentos com o preditor, os quais consistiram da aplica¸ca˜o de t´ecnicas de extra¸ca˜o de caracter´ısticas nos dados de entrada. An´alise de Componentes Principais (do inglˆes Principal Components Analysis) [Bishop, 1995, Johnson and Wichern, 1992] e An´alise de Componentes Independentes (Independent Components Analysis) [Hyv¨arinen and Oja, 2000, Hyv¨arinen, 1999b] foram utilizadas no problema de predi¸ca˜o de estrutura secund´aria. Os percentuais obtidos com cada uma das t´ecnicas foram compar´aveis aos obtidos com os dados completos [Melo et al., 2003a, Melo et al., 2003b]. Os trˆes experimentos foram posteriormente analisados objetivando identificar novas diretivas de melhoramento.

(22) ˜o introduc ¸a. 6. [Melo et al., 2004].. O segundo problema abordado neste trabalho trata da busca e compara¸ca˜o de padr˜oes conservados em prote´ınas. Algoritmos e estruturas de dados foram estudados objetivando a obten¸ca˜o de uma representa¸ca˜o simplificada para estruturas de prote´ınas e sua utiliza¸ca˜o em algoritmos para detec¸ca˜o e identifica¸ca˜o de subestruturas [Guimar˜aes and Melo, 2003]. Inicialmente, duas abordagens foram consideradas no desenvolvimento do m´etodo de busca e compara¸ca˜o de estruturas a ser apresentado [Lesk, 1995, Jonassen et al., 1999], as quais diferem principalmente nos elementos escolhidos para a representa¸ca˜o das estruturas de prote´ınas. Jonassen et al [Jonassen et al., 1999] prop˜oe a representa¸ca˜o atrav´es de um conjunto de pontos, sendo as informa¸co˜es sobre os res´ıduos e sua vizinhan¸ca armazenadas numa lista de descri¸ca˜o, a qual inclui o tipo dos elementos onde os res´ıduos est˜ao localizados e coordenadas dos a´tomos das cadeias laterais. Arthur Lesk [Lesk, 1995] por sua vez utiliza informa¸co˜es relativas aos elementos de estrutura secund´aria, sendo os elementos associados a seus vetores axiais e suas orienta¸co˜es relativas armazenadas numa matriz. Objetivando contemplar a compacticidade e simplicidade da representa¸ca˜o, bem como os aspectos biol´ogicos que favorecem a utiliza¸ca˜o de informa¸co˜es sobre elementos de estrutura secund´aria, a abordagem proposta por Arthur Lesk foi escolhida como base para o m´etodo de compara¸ca˜o desenvolvido. Propostas de representa¸ca˜o das estruturas prot´eicas atrav´es de elementos de estrutura secund´aria foram tamb´em estudadas. Observou-se que a maioria dos m´etodos efetua a compara¸ca˜o entre pares de prote´ınas, ou constr´oi alinhamentos m´ ultiplos a partir da compara¸ca˜o entre pares [Kleywegt and Jones, 1997], [Michalopoulos et al., 2004], sendo poucos os que se prop˜oem a considerar todo um grupo de prote´ınas [Eidhammer et al., 2000], [Dror et al., 2003]. Concomitantemente, a descri¸ca˜o proposta por Arthur Lesk foi analisada objetivando detectar pontos que poderiam ser melhorados. O modelo original foi ent˜ao modificado para considerar mais informa¸co˜es, bem como para permitir um maior grau de flexibilidade para as medidas de intera¸ca˜o entre pares de vetores. As matrizes utilizadas para representar as estruturas de prote´ınas foram substitu´ıdas por grafos, cujos n´os correspondem a elementos de estrutura secund´aria e as arestas indicam os diferentes relacionamentos entre eles. Usando este modelo, os problemas relacionados a` busca e a` compara¸ca˜o de estruturas prot´eicas foram reduzidos a problemas t´ıpicos de Teoria dos Grafos, especificamente, a busca por subgrafos isomorfos e a busca por.

(23) ˜o introduc ¸a. 7. subgrafos maximais isomorfos. Algoritmos cl´assicos [Valiente, 2002], [McGregor, 1982], [Ullmann, 1976] foram modificados e adaptados de modo a considerar as especificidades de nosso modelo, bem como as informa¸co˜es introduzidas. O processo e resultados advindos das abordagens desenvolvidas para ambos os problemas encontram-se descritos neste trabalho, o qual est´a organizado como segue. No Cap´ıtulo 2 s˜ao introduzidos os principais conceitos biol´ogicos e computacionais utilizados. Defini¸co˜es relativas a`s prote´ınas e seus diferentes n´ıveis de express˜ao s˜ao apresentados juntamente com as classes em que estas podem estar dispostas e alguns esclarecimentos em rela¸ca˜o a terminologia da a´rea. Os aspectos computacionais b´asicos sobre elementos de Redes Neurais Artificiais e Teoria dos Grafos tamb´em s˜ao apresentados. O problema da predi¸ca˜o de estrutura secund´aria ´e tratado no Cap´ıtulo 3. Neste, um resumo cr´ıtico de abordagens representativas para a predi¸ca˜o de estrutura secund´aria ´e apresentado. Os m´etodos utilizados no preditor desenvolvido com base neste estudo s˜ao ent˜ao descritos. A arquitetura das redes, algoritmos e t´ecnicas utilizadas em cada um dos trˆes experimentos realizados s˜ao apresentados, juntamente com uma discuss˜ao sobre os resultados obtidos. No Cap´ıtulo 4 a aplica¸ca˜o de t´ecnicas de extra¸ca˜o de caracter´ısticas ao problema de predi¸ca˜o de estrutura secund´aria ´e apresentada. O comportamento do preditor apresentado no Cap´ıtulo 3 mediante o pr´e-processamento dos dados de entrada utilizando a An´alise de Componentes Principais e a An´alise de Componentes Independentes ´e discutido. Uma an´alise comparativa dos resultados obtidos com preditor, considerando ou n˜ao a fase de extra¸ca˜o de caracter´ısticas, finaliza o cap´ıtulo em quest˜ao. O Cap´ıtulo 5 trata do problema de busca e compara¸ca˜o de padr˜oes estruturais em prote´ınas. As considera¸co˜es a serem feitas no desenvolvimento de representa¸co˜es de estruturas s˜ao explanadas. A representa¸ca˜o desenvolvida para o problema ´e apresentada, seguida de um resumo cr´ıtico de abordagens baseadas em representa¸co˜es similares. Os algoritmos e respectivas adapta¸co˜es s˜ao explicados e os resultados obtidos nas duas abordagens s˜ao apresentados. Conclus˜oes e diretivas futuras para os problemas e abordagens aqui apresentados comp˜oem o Cap´ıtulo 6..

(24) CAP´ITULO 2. ´ CONCEITOS BASICOS E TERMINOLOGIA 2.1. ˜ INTRODUC ¸ AO. O car´ater multidisciplinar da Biologia Computacional motivou a introdu¸ca˜o do atual cap´ıtulo, o qual apresenta os conceitos b´asicos e terminologias referentes aos problemas abordados neste trabalho. O cap´ıtulo encontra-se dividido em duas se¸co˜es. Aspectos biof´ısicos e bioqu´ımicos relativos a`s prote´ınas, tais como defini¸ca˜o, classes e os diferentes n´ıveis de arquitetura s˜ao explanados na Se¸ca˜o 2.2. Conceitos introdut´orios relativos a Redes Neurais Artificiais e Teoria dos Grafos, considerados nos problemas tratados, s˜ao discorridos na Se¸ca˜o 2.3. Defini¸co˜es e t´ecnicas especificamente relacionadas a`s abordagens desenvolvidas para ambos os problemas s˜ao apresentadas oportunamente ao longo deste trabalho. 2.2. ´ FUNDAMENTOS BIOLOGICOS. Genoma ´e o conjunto completo de informa¸co˜es necess´arias para o desenvolvimento de um organismo. Estes dados encontram-se armazenados nos cromossomos, que s˜ao constitu´ıdos essencialmente de ´acido desoxirribonucl´eico, DNA (do inglˆes Deoxyribonucleic Acid). Esta cadeia de DNA cont´em milhares de genes, a partir dos quais s˜ao fabricadas todas as prote´ınas de um organismo. As prote´ınas por sua vez tˆem um papel essencial no metabolismo, participando praticamente de todas as atividades celulares. Elas colaboram com cerca de 20% do peso das c´elulas, perdendo em contribui¸ca˜o apenas para a a´gua, que participa com 70% do peso da c´elula. Existem diferentes tipos de prote´ınas, as quais exercem fun¸co˜es fundamentais nas c´elulas, tais como, suporte de filamentos, cat´alise bioqu´ımica, regula¸ca˜o do volume celular e imuniza¸ca˜o, entre outras [Nelson and Cox, 2000]. As prote´ınas podem ser divididas em duas classes: prote´ınas de membrana e prote´ınas globulares. As prote´ınas de membrana representam cerca de 25% das prote´ınas num genoma t´ıpico. Por estarem localizadas nas membranas das c´elulas, estas se encontram em um ambiente lip´ıdico, podendo agir como um receptor para que a c´elula capture informa¸co˜es 8.

(25) ´ gicos 2.2 fundamentos biolo. 9. do exterior. Devido a tais propriedades as prote´ınas de membrana s˜ao freq¨ uentemente usadas como alvo no desenvolvimento de drogas. No entanto, as prote´ınas de membrana s˜ao mais dif´ıceis de serem cristalizadas e, portanto, possuem menos estruturas conhecidas. As prote´ınas globulares por sua vez comp˜oem os 75% restantes das prote´ınas de um genoma t´ıpico e encontram-se em ambiente aquoso, tais como n´ ucleo e citoplasma, podendo ser secretadas pela c´elula. As prote´ınas globulares possuem mais estruturas dispon´ıveis e, por representarem uma boa fra¸ca˜o das prote´ınas, s˜ao as mais pesquisadas [Baldi and Pollastri, 2002]. Os a´cidos nucl´eicos e as prote´ınas s˜ao mol´eculas formadas pela liga¸ca˜o de v´arias unidades semelhantes, estas denominadas monˆomeros. No DNA os monˆomeros s˜ao nucleot´ıdeos, tamb´em referenciados como bases, que s˜ao simbolizados por A (adenina), C (citosina), G (guanina) e T (timina). Nas prote´ınas os monˆomeros s˜ao os amino´acidos [Setubal and Meidanis, 1997]. Um total de 20 amino´acidos ocorre naturalmente nas prote´ınas, sendo cada um deles representado simbolicamente por uma letra (Tabela 2.1). A representa¸ca˜o de uma prote´ına atrav´es de sua seq¨ uˆencia de amino´acidos ´e denominada estrutura prim´aria, a qual ser´a tratada com mais detalhes posteriormente. A determina¸ca˜o da seq¨ uˆencia exata de monˆomeros que comp˜oem tais mol´eculas ´e denominada seq¨ uenciamento. Tabela 2.1. Os 20 amino´acidos que ocorrem naturalmente nas prote´ınas.. Amino´acido Alanina Arginina ´ Acido asp´artico Asparagina Ciste´ına ´ Acido glutˆamico Glutamina Glicina Histidina Isoleucina Leucina Lisina Metionina Fenilalanina Prolina Serina Treonina Triptofan Tirosina Valina. Abrevia¸ca˜o ALA A ARG R ASP D ASN N CYS C GLU E GLN Q GLY G HIS H ILE I LEU L LYS K MET M PHE F PRO P SER S THR T TRP W TYR Y VAL V.

(26) ´ gicos 2.2 fundamentos biolo. 10. Alguns aspectos costumam ser analisados ao considerarmos seq¨ uˆencias de DNA ou de prote´ınas. A an´alise neste n´ıvel consiste da busca por similaridades com seq¨ uˆencias j´a estudadas, visando identificar aspectos funcionais e morfol´ogicos. Estas informa¸co˜es encontram-se em bancos de dados biol´ogicos, mantidos geralmente por entidades p´ ublicas. Dentre tais bancos podemos citar o GenBank [Benson et al., 2002], o DNA Data Bank of Japan [Tateno et al., 2000] e o EMBL [Stoesser et al., 2003].. A busca por similaridades pode ser feita de v´arias formas, sendo o alinhamento de seq¨ uˆencias uma das mais utilizadas. Alinhar duas seq¨ uˆencias consiste em estabelecer uma correspondˆencia entre os s´ımbolos das duas obedecendo a` sua ordem, e dando prioridade a procurar fazer corresponder caracteres iguais, o que se chama casamento (do inglˆes matching). Alternativamente, um s´ımbolo pode corresponder a um caractere diferente na outra seq¨ uˆencia, chamando-se a isto uma substitui¸ca˜o, ou pode corresponder a um s´ımbolo especial “-”, o que representa a inser¸ca˜o ou a remo¸ca˜o daquele caractere. Cada casamento, substitui¸ca˜o, inser¸ca˜o e remo¸ca˜o tem uma pontua¸ca˜o (ou score) associada. Quanto maior a soma destas pontua¸co˜es melhor o alinhamento obtido, indicando que aquelas seq¨ uˆencias possuem um bom grau de similaridade. O alinhamento que envolve mais de duas seq¨ uˆencias ´e denominado alinhamento m´ ultiplo. Um alinhamento m´ ultiplo ´e definido de maneira semelhante ao de duas seq¨ uˆencias. Seja s1 , · · · , sk um conjunto de seq¨ uˆencias sobre um mesmo alfabeto. O alinhamento m´ ultiplo entre s1 , · · · , sk ´e obtido inserindo espa¸cos nas seq¨ uˆencias de modo que elas fiquem to´ feito das do mesmo tamanho, n˜ao sendo permitida uma coluna apenas com espa¸cos. E um casamento entre os elementos (caracteres ou espa¸cos) que pertencem a uma mesma coluna, buscando maximizar a pontua¸ca˜o (Figura 2.1).. Figura 2.1. Alinhamento m´ ultiplo de 8 fragmentos de seq¨ uˆencias de imunoglobulinas.. A pontua¸ca˜o de um alinhamento m´ ultiplo pode ser definida de v´arias formas. Uma delas, conhecida como SP, do inglˆes Sum-of-Pairs, consiste em atribuir uma pontua¸ca˜o.

(27) ´ gicos 2.2 fundamentos biolo. 11. para cada coluna e tomar a soma destes valores como sendo a pontua¸ca˜o do alinhamento, onde a pontua¸ca˜o de uma coluna ´e dada pela soma das pontua¸co˜es de cada par de elementos. Em abordagens tradicionais, a complexidade temporal e espacial para construir alinhamentos m´ ultiplos torna-se exponencial [Setubal and Meidanis, 1997].. Na determina¸ca˜o da fun¸ca˜o de uma prote´ına ´e importante conhecermos quais as suas poss´ıveis formas de apresenta¸ca˜o a fim de determinarmos qual forma de an´alise ´e mais adequada. As prote´ınas podem ser consideradas em quatro n´ıveis de arquitetura (Figura 2.2): • Estrutura prim´aria • Estrutura secund´aria • Estrutura terci´aria • Estrutura quatern´aria. Figura 2.2. Os quarto n´ıveis de arquitetura de uma prote´ına (figura retirada de [Branden and Tooze, 1999]).. Cada um desses n´ıveis ´e explicado nas subse¸co˜es seguintes. Adicionalmente s˜ao apresentadas defini¸co˜es de combina¸co˜es espec´ıficas de elementos de estrutura secund´aria, a saber motivos e dom´ınios. Tais estruturas s˜ao classificadas como estruturas intermedi´arias. 2.2.1. Estrutura Prim´ aria. Na estrutura prim´aria, brevemente apresentada na se¸ca˜o anterior, as prote´ınas s˜ao representadas por subunidades monom´ericas denominadas amino´acidos. Neste n´ıvel de.

(28) ´ gicos 2.2 fundamentos biolo. 12. representa¸ca˜o, o arranjo espacial dos amino´acidos n˜ao ´e especificado. S˜ao em n´ umero de vinte os amino´acidos que ocorrem naturalmente nas diferentes formas de vida (Tabela 2.1). Estes amino´acidos s˜ao comumente denominados amino´acidos padr˜ao, para diferenci´alos daqueles modificados no interior das prote´ınas ou dos que est˜ao no organismo mas n˜ao nas prote´ınas. Cada um dos vinte amino´acidos padr˜ao, aqui referenciados simplesmente por amino´acidos, possui um grupo amino (N H2 ) e um grupo carboxil (COOH) ligados a um a´tomo de carbono (C), denominado Carbono α (Cα ). A diferen¸ca entre eles ´e determinada por sua cadeia lateral ou grupo R (Figura 2.3). Os grupos R influenciam, por exemplo, na solubilidade do amino´acido em a´gua e possuem diferentes estruturas, tamanhos e valˆencias.. Figura 2.3. A estrutura b´asica de um amino´acido padr˜ao.. Liga¸co˜es covalentes, denominadas pept´ıdicas, unem um certo n´ umero de amino´acidos durante a s´ıntese de prote´ınas. O n´ umero de prote´ınas envolvidas pode variar. Se este ´e pequeno, a cadeia resultante ´e denominada oligopept´ıdica. Se o n´ umero de amino´acidos envolvidos ´e grande ent˜ao a cadeia ´e denominada polipept´ıdica. Os termos prote´ınas e cadeias polipept´ıdicas s˜ao intercambi´aveis, embora os polipept´ıdios possuam pesos moleculares inferiores a dez mil daltons (um dalton ´e uma unidade de massa usual em bi1 oqu´ımica e ´e equivalente a 12 da massa do 12 C). As prote´ınas por sua vez n˜ao possuem esta limita¸ca˜o e podem ser definidas como uma macromol´ecula resultante da composi¸ca˜o de uma ou mais cadeias polipept´ıdicas. Durante a s´ıntese de prote´ınas, os amino´acidos que se ligam perdem uma mol´ecula de a´gua, formada por um hidrogˆenio (H) do grupo amino com o hidroxil (OH) do grupo carboxil. Por esta raz˜ao, os amino´acidos nas prote´ınas s˜ao muitas vezes referenciados como res´ıduos. O grupo amino do primeiro amino´acido na cadeia polipept´ıdica e o grupo carboxil do u ´ltimo amino´acido permanecem intactos. O res´ıduo que est´a localizado na extremidade que exibe o grupo amino ´e denominado aminoterminal ou N-terminal. Na.

(29) ´ gicos 2.2 fundamentos biolo. 13. outra extremidade, o res´ıduo que exibe o grupo carboxil ´e denominado carboxi-terminal ou C-terminal (Figura 2.4). A estrutura prim´aria de uma prote´ına ´e convencionalmente lida da extremidade N-terminal para a C-terminal.. Figura 2.4. Liga¸co˜es covalentes na mol´ecula de prote´ına. Trˆes amino´acidos delimitados pelos ´atomos C e N s˜ao exibidos. Os c´ırculos pequenos representam ´atomos de hidrogˆenio.. A estrutura prim´aria de uma prote´ına determina em muitos casos as suas propriedades. A mudan¸ca de apenas um de seus amino´acidos pode provocar a perda de sua fun¸ca˜o. A anemia que deforma as hem´acias, por exemplo, ocorre devido a` substitui¸ca˜o do a´cido glutˆamico pela valina na sexta posi¸ca˜o da hemoglobina (os primeiros 26 amino´acidos da hemoglobina s˜ao mostrados na Figura 2.5). Devido a tal rela¸ca˜o busca-se inferir a estrutura tridimensional a partir da seq¨ uˆencia de amino´acidos.. Figura 2.5. Parte inicial da estrutura prim´aria da hemoglobina.. A sucess˜ao de liga¸co˜es pept´ıdicas gera ainda uma outra forma de representar uma prote´ına: a cadeia principal (ou backbone). Os a´tomos que formam o backbone s˜ao o Cα , o grupo N H e o grupo carboxil ligados a este. A cadeia principal ´e completamente determinada em termos dos aˆngulos φ e ψ. Estes aˆngulos s˜ao definidos como rota¸co˜es sobre as liga¸co˜es Cα − N e Cα − C, respectivamente. Existe ainda o aˆngulo de rota¸ca˜o da liga¸ca˜o pept´ıdica, denominado ω, o qual tende a ser plano assumindo na maioria das vezes ´ importante observar que nesta representa¸ca˜o a disposi¸ca˜o o valor de 180o (Figura 2.6). E espacial dos a´tomos ´e considerada, o que n˜ao ocorre quando usamos a estrutura prim´aria. 2.2.2. Estrutura Secund´ aria. Os arranjos recorrentes de res´ıduos no espa¸co s˜ao denominados estruturas secund´arias. Estes elementos regulares podem ser distribu´ıdos em trˆes classes: h´elices α, folhas β e.

(30) ´ gicos 2.2 fundamentos biolo. 14. Figura 2.6. Ilustra¸ca˜o dos aˆngulos φ, ψ e ω.. coils. Uma h´elice α ´e um dos principais elementos de estrutura secund´aria, consistindo de um arranjo de aproximadamente dez a quarenta res´ıduos consecutivos em forma de uma h´elice. A cadeia principal de uma h´elice possui aˆngulos φ e ψ negativos, com valores t´ıpicos de −60o e −50o . Cada volta em uma h´elice α possui em m´edia 3, 6 res´ıduos. Liga¸co˜es de hidrogˆenio s˜ao observadas entre o grupo CO do i-´esimo res´ıduo na h´elice e o grupo N H do res´ıduo i + 4 (Figura 2.7), sendo i uma posi¸ca˜o qualquer dos res´ıduos na h´elice. Existem ainda varia¸co˜es de h´elices cujas liga¸co˜es s˜ao realizadas entre os grupos do res´ıduo i com o i + 5 ou com o res´ıduo i + 3. Estas s˜ao chamadas h´elices π e h´elices 310 , respectivamente. Por´em, tais varia¸co˜es n˜ao s˜ao energeticamente favor´aveis e n˜ao ocorrem, portanto, t˜ao freq¨ uentemente quanto as h´elices α.. Figura 2.7. Representa¸co˜es [Branden and Tooze, 1999]).. esquem´aticas. de. uma. h´elice. α. (figura. retirada. de. Uma informa¸ca˜o importante sobre as h´elices α diz respeito a` sua estabiliza¸ca˜o, que.

(31) ´ gicos 2.2 fundamentos biolo. 15. ´e maior quando as h´elices s˜ao colocadas juntas atrav´es de intera¸co˜es entre as cadeias laterais. Estas intera¸co˜es s˜ao maximizadas quando as h´elices se conformam em um arranjo denominado coiled-coil, onde as h´elices s˜ao enla¸cadas umas nas outras (Figura 2.8).. Figura 2.8. H´elices α [Branden and Tooze, 1999]).. na. conforma¸ca˜o. coiled-coil. (. figura. retirada. de. Diferentemente das h´elices α, que s˜ao formadas por regi˜oes cont´ıguas, as folhas β, s˜ao formadas pela combina¸ca˜o de v´arias regi˜oes, denominadas fitas β (ou β strands). Tais elementos s˜ao formados por cinco a dez res´ıduos adjacentes e s˜ao ligados a outras fitas atrav´es de liga¸co˜es de hidrogˆenio que ligam o grupo CO de uma fita ao grupo N H de uma outra adjacente. Os valores t´ıpicos para os aˆngulos φ e ψ em uma folha β s˜ao −140o e 130o , respectivamente. A dire¸ca˜o bioqu´ımica, do N-terminal para o C-terminal, de duas fitas adjacentes pode ser a mesma ou alternada. No primeiro caso, a folha β formada ´e dita paralela e, no segundo caso, ´e classificada como antiparalela (Figura 2.9). Em folhas paralelas, normalmente, s˜ao encontrados res´ıduos hidrof´obicos em ambas as fitas, enquanto nas folhas antiparalelas eles s˜ao encontrados em apenas uma das fitas.. Figura 2.9. Folhas β. Em (a) representa¸ca˜o gr´afica comumente utilizada. Em (b) podemos observar as liga¸co˜es antiparalelas (superior) e paralelas (inferior) entre as fitas (figura retirada de [Branden and Tooze, 1999]).. Um n´ umero consider´avel de folhas β encontradas em prote´ınas globulares encontramse “torcidas” (do inglˆes twisted), fenˆomeno que ocorre mais freq¨ uentemente em folhas antiparalelas do que em folhas paralelas. A tor¸ca˜o total da folha resulta em uma rota¸ca˜o relativa de 0o a 30o dos res´ıduos nas fitas (Figura 2.10)..

(32) ´ gicos 2.2 fundamentos biolo. 16. Figura 2.10. Prote´ına tioredoxina da E. coli. As setas representam as fitas β (figura retirada de [Branden and Tooze, 1999]).. Diferentemente das h´elices e folhas, os la¸cos (do inglˆes loops) s˜ao segmentos irregulares que podem assumir diferentes formas e tamanhos. La¸cos longos s˜ao dif´ıceis de serem caracterizados pelo m´etodo de raio-X e n˜ao s˜ao determinados por ressonˆancia magn´etica nuclear, por´em costumam estar envolvidos nas fun¸co˜es das prote´ınas. Os la¸cos conectam os outros elementos de estrutura secund´aria, podendo receber diferentes denomina¸co˜es dependendo dos elementos por ele ligados. Por exemplo, os la¸cos que ligam duas fitas β antiparalelas, num tipo de subestrutura rotulada β-hairpin, s˜ao chamados hairpin-loops (Figura 2.11). Al´em de conectar outras estruturas secund´arias, os la¸cos podem participar na forma¸ca˜o de s´ıtios ativos e de liga¸ca˜o. Por exemplo, os s´ıtios de liga¸ca˜o ant´ıgenos nos anticorpos s˜ao formados por seis regi˜oes de la¸cos. Varia¸co˜es de tamanho e de elementos na seq¨ uˆencia de amino´acidos dos la¸cos resultam em anticorpos diferentes.. Figura 2.11. Representa¸ca˜o esquem´atica de um hairpin-loop..

(33) ´ gicos 2.2 fundamentos biolo. 17. Os la¸cos localizam-se fora do n´ ucleo hidrof´obico da prote´ına. Eles podem ser encontrados na superf´ıcie da mol´ecula, sendo compostos principalmente por res´ıduos hidrof´ılicos [Branden and Tooze, 1999]. Estas regi˜oes n˜ao s˜ao t˜ao est´aveis quanto o n´ ucleo da prote´ına, estando mais suscet´ıveis a mudan¸cas durante a evolu¸ca˜o. Quando seq¨ uˆencias de prote´ınas s˜ao alinhadas, as inser¸co˜es e remo¸co˜es ocorrem mais freq¨ uentemente nas regi˜oes de la¸co. Apesar de sua natureza vari´avel, as conforma¸co˜es dos la¸cos recaem em um conjunto limitado de estruturas. Alguns textos utilizam o termo la¸co para referenciar a uma terceira classe de elementos de estrutura secund´aria: os coils. Esta abrange os demais arranjos recorrentes que n˜ao est˜ao inclu´ıdos nas duas primeiras classes (h´elices α e folhas β), como por exemplo, as h´elices que n˜ao s˜ao energeticamente favor´aveis, como as π e 310 . 2.2.3. Estruturas Intermedi´ arias. Existem ainda alguns n´ıveis intermedi´arios de estruturas, que s˜ao as estruturas supersecund´arias e os dom´ınios. As estruturas supersecund´arias, ou motivos (do inglˆes motifs), s˜ao conjuntos est´aveis de elementos de estrutura secund´aria que formam arranjos particulares atrav´es de intera¸co˜es entre as cadeias laterais. Os motivos podem ocorrer v´arias vezes numa mesma prote´ına ou em prote´ınas diferentes, estando ou n˜ao associados a fun¸co˜es. Exemplos de estruturas supersecund´arias associadas a fun¸co˜es s˜ao os motivos h´elicela¸co-h´elice. Estes podem efetuar tarefas diferentes, dependendo de seu arranjo geom´etrico, tais como liga¸ca˜o com mol´eculas de DNA (Figura 2.12.a) ou com a´tomos de c´alcio (Figura 2.12.b). Um exemplo de motivo que n˜ao est´a associado a uma fun¸ca˜o ´e o β hairpin (Figura 2.13). Diferentes combina¸co˜es de motivos estruturais formam estruturas globulares denominadas dom´ınios. O n´ umero de combina¸co˜es dos motivos ´e limitado e alguns arranjos s˜ao energeticamente mais favor´aveis do que outros. Os dom´ınios s˜ao regi˜oes compactas que podem compreender de 40 a 400 amino´acidos, formando uma unidade estrutural distinta na regi˜ao conservada da prote´ına (o n´ ucleo). Uma prote´ına pode ter um ou v´arios dom´ınios, os quais est˜ao necessariamente associados a uma fun¸ca˜o, sendo estes utilizados na classifica¸ca˜o das estruturas tridimensionais ´ oportuno observar que na literatura da Bioinform´atica [Branden and Tooze, 1999]. E estes termos podem ter outras conota¸co˜es, sendo associados, por exemplo, a elementos caracter´ısticos de seq¨ uˆencias..

(34) ´ gicos 2.2 fundamentos biolo. 18. Figura 2.12. Em (a) um motivo ligante de DNA. Em (b) um motivo ligante de c´alcio (figuras (a) e (b) retiradas de [Branden and Tooze, 1999]).. 2.2.4. Estruturas Terci´ aria e Quatern´ aria. Essencialmente, a estrutura terci´aria de uma prote´ına consiste na conforma¸ca˜o tridimensional dos elementos de estrutura secund´aria numa u ´nica cadeia polipept´ıdica. Esta pode ser definida como a forma em que uma cadeia polipept´ıdica se dobra num u ´nico ou em v´arios dom´ınios. Como foi dito anteriormente, podemos classificar a estruturas 3D das prote´ınas pela presen¸ca de certos dom´ınios. Um exemplo ´e a classifica¸ca˜o proposta por Levitt e Chothia [Levitt and Chothia, 1976] que prop˜oe trˆes grupos principais de estruturas: • Dom´ınios α: grupos de h´elices α no n´ ucleo da prote´ına conectadas por la¸cos localizados na superf´ıcie (Figura 2.14, obtida em [Branden and Tooze, 1999]). • Dom´ınios β: o n´ ucleo ´e formado por folhas β antiparalelas, usualmente duas folhas conformadas como um sandu´ıche (Figura 2.15). Este dom´ınio ´e comum em enzimas, anticorpos e v´ırus. • Dom´ınios α/β: Composto principalmente por folhas β paralelas cercadas por h´elices α (Figura 2.16, obtida em [Branden and Tooze, 1999]). Esta estrutura ´e comum em enzimas metab´olicas. Uma outra pequena classe pode ainda ser considerada. Rotulada α + β, esta classe compreende principalmente h´elices α segregadas e, numa outra parte do dom´ınio, algumas folhas β antiparalelas (Figura 2.17)..

(35) ´ gicos 2.2 fundamentos biolo. Figura 2.13. Prote´ına que [Branden and Tooze, 1999]).. 19. possui. dois. motivos. β. hairpin. (figura. retirada. de. A an´alise da estrutura tridimensional de uma prote´ına pode ser feita atrav´es de seus aˆngulos de tors˜ao. Na conforma¸ca˜o espacial de uma cadeia polipept´ıdica as liga¸co˜es N-C α e Cα -C possuem um certo grau de liberdade para rotacionar. Tais rota¸co˜es, representadas pelos aˆngulos φ e ψ respectivamente (Figura 2.6), s˜ao restritas pelos contatos entre os a´tomos que comp˜oem as cadeias laterais dos amino´acidos. No in´ıcio dos anos 60, G. N. Ramachandran [Ramachandran et al., 1963], [Ramachandran and Sasisekharan, 1968], propˆos um modelo computacional para cadeias polipept´ıdicas pequenas onde os aˆngulos φ e ψ variavam sistematicamente em busca de conforma¸co˜es espaciais est´aveis. Tais conforma¸co˜es foram propostas calculando probabilidade de ocorrˆencia das combina¸co˜es desses aˆngulos, utilizando para isto a equa¸ca˜o de Arrhenius (Equa¸ca˜o .), onde A ´e um fator de freq¨ uˆencia, ∆ξ ´e a varia¸ca˜o de energia, kB ´e a constante de Boltzmann e T a temperatura. A energia correspondente para cada conforma¸ca˜o foi obtida com base no conhecimento de distˆancias interatˆomicas. Hip´oteses sobre forma e parˆametros de potenciais interatˆomicos tamb´em foram seguidas [Cotterill, 2002]. −∆ξ. P = A · e kB T. (.). Os aˆngulos φ e ψ assumiam valores entre +180o e −180o , sendo as combina¸co˜es que levavam a colis˜oes desconsideradas. As colis˜oes s˜ao determinadas em fun¸ca˜o do campo el´etrico que define o per´ımetro de cada a´tomo. Nas intera¸co˜es intermoleculares, os a´tomos.

(36) ´ gicos 2.2 fundamentos biolo. 20. Figura 2.14. Exemplo de dom´ınio α.. Figura 2.15. Exemplo de dom´ınio β.. Figura 2.16. Exemplo de dom´ınio α/β.. Figura 2.17. Exemplo de dom´ınio α + β.. se aproximam uns dos outros buscando conforma¸co˜es de maior estabilidade. Uma colis˜ao ocorre quando, para uma dada conforma¸ca˜o, a distˆancia entre os a´tomos ´e menor que o raio de van der Waals, o qual ´e determinado a partir de medidas do espa¸camento atˆomico entre pares a´tomos n˜ao ligados em cristais (Figura 2.18). Em outras palavras, no modelo proposto por Ramachandran os a´tomos s˜ao tratados como esferas r´ıgidas cujas dimens˜oes correspondem a seus raios de van der Waals. Os aˆngulos φ e ψ que levam a colis˜oes correspondem a conforma¸co˜es n˜ao permitidas (ou pouco prov´aveis) para a cadeia polipept´ıdica. Os estudos realizados por Ramachandran levaram a` determina¸ca˜o de poss´ıveis valores de φ e ψ para cada estrutura recorrente na conforma¸ca˜o tridimensional de uma prote´ına, isto ´e, para os elementos de estrutura secund´aria, sendo tais valores listados a seguir: • h´elice α (direita): −60o < ψ < +30o e −120o < φ < −30o • folha β: +90o < ψ < +180o e −180o < φ < −60o • h´elice α (esquerda): 0o < ψ < +60o e +45o < φ < +90o A ocorrˆencia ou n˜ao de colis˜oes na an´alise de poss´ıveis conforma¸co˜es de prote´ınas ´e considerada no gr´afico de Ramachandran (do inglˆes Ramachandran plot). Trˆes regi˜oes.

(37) ´ gicos 2.2 fundamentos biolo. 21. Figura 2.18. Raio de van der Waals.. s˜ao definidas neste gr´afico: • N´ ucleo (core): Regi˜oes onde n˜ao h´a colis˜oes de van der Waals. Nelas s˜ao permitidas conforma¸co˜es h´elices α (direita) e folhas β. • Permitida (allowed): Regi˜oes aceit´aveis onde raios ligeiramente menores que os de van der Waals s˜ao usados no c´alculo, ou seja, ´e permitido que os a´tomos estejam um pouco mais pr´oximos. • N˜ao Permitida (disallowed): Regi˜oes onde os a´tomos est˜ao a uma distˆancia bem menor que o raio de van der Waals. Um exemplo de gr´afico de Ramachandran ´e exibido na Figura 2.19. Nesta, as regi˜oes do tipo N´ ucleo s˜ao exibidas em cinza escuro, as regi˜oes do tipo Permitida em cinza claro e as regi˜oes do tipo N˜ao Permitida em branco. Estes gr´aficos s˜ao utilizados para diversos fins. Por exemplo, na monitora¸ca˜o do progresso e refinamento da constru¸ca˜o do modelo da prote´ına, na identifica¸ca˜o de conforma¸co˜es pouco prov´aveis em modelos j´a existentes e na indica¸ca˜o de res´ıduos que ainda devem ser trabalhados. A utiliza¸ca˜o do gr´afico se d´a calculando, para cada res´ıduo que n˜ao est´a nas extremidades da cadeia, os aˆngulos φ e ψ do modelo proposto. Os aˆngulos determinam pontos que s˜ao marcados no gr´afico, identificando assim res´ıduos que est˜ao em regi˜oes n˜ao permitidas..

(38) 2.3 fundamentos computacionais. 22. Figura 2.19. Gr´afico de Ramachandran.. Atualmente, novos limites de varia¸ca˜o dos aˆngulos φ e ψ s˜ao utilizados, os quais foram definidos atrav´es da an´alise de diversas estruturas presentes no Protein Data Bank. A cada ano as regi˜oes N´ ucleo, Permitida e N˜ao Permitida tornam-se menores, aumentando assim a precis˜ao na an´alise de estruturas. Prote´ınas com v´arias cadeias polipept´ıdicas tˆem ainda um n´ıvel adicional de arquitetura, a estrutura quatern´aria. Esta especifica os relacionamentos espaciais entre os polipept´ıdios ou subunidades destes. Cada subunidade pode executar uma fun¸ca˜o diferente ou elas podem agir cooperativamente para efetuar uma determinada fun¸ca˜o. 2.3. FUNDAMENTOS COMPUTACIONAIS. A presente se¸ca˜o introduz os principais conceitos computacionais utilizados nos problemas tratados neste trabalho, quanto a`s Redes Neurais Artificiais, utilizadas na Predi¸ca˜o de Estrutura Secund´aria, e sobre Grafos, estruturas utilizadas na Busca e Compara¸ca˜o de Estruturas Prot´eicas..

(39) 2.3 fundamentos computacionais 2.3.1. 23. Redes Neurais Artificiais. Uma breve introdu¸ca˜o a`s redes neurais artificiais ´e apresentada nesta subse¸ca˜o. A unidade b´asica de uma rede neural ´e explicada juntamente com uma das suas mais conhecidas arquiteturas, a Multilayer Perceptron. Em seguida ´e apresentado o algoritmo de treinamento mais utilizado nas diferentes abordagens para o problema da predi¸ca˜o de estrutura secund´aria, o backpropagation. Adicionalmente, exemplos de outros modelos de redes s˜ao brevemente explanados. 2.3.1.1 Apresenta¸c˜ ao Inspiradas em sistemas nervosos biol´ogicos, como o c´erebro humano, as Redes Neurais Artificiais (RNAs) s˜ao sistemas paralelos distribu´ıdos compostos por unidades de processamento denominadas n´os (nodos ou ainda neurˆonios). Os nodos s˜ao respons´aveis pelo c´alculo de determinadas fun¸co˜es matem´aticas, normalmente n˜ao lineares. Tais unidades s˜ao dispostas em uma ou mais camadas e interligadas por um grande n´ umero de conex˜oes. Na maioria dos modelos, a estas conex˜oes s˜ao associados pesos, os quais armazenam o conhecimento representado no modelo e servem para ponderar a entrada recebida por cada nodo da rede, ou seja, o peso indica a importˆancia do sinal recebido para aquela entrada. O procedimento para a utiliza¸ca˜o de redes neurais na resolu¸ca˜o de problemas inicia-se pela apresenta¸ca˜o de um conjunto de exemplos a` rede, denominado conjunto de treinamento, a partir do qual ´e extra´ıda a informa¸ca˜o necess´aria para generalizar as caracter´ısticas do problema e, em seguida, fornecer respostas coerentes para dados n˜ao apresentados anteriormente. 2.3.1.2 Unidade B´ asica A unidade b´asica desse sistema, o nodo, ´e um modelo simplificado de um neurˆonio biol´ogico. Um exemplo de tal modelo ´e o nodo MCP (Figura 2.20), proposto por McCulloch e Pitts [McCulloch and Pitts, 1943]. Neste modelo s˜ao apresentados p sinais de entrada, denotados por xi . Cada sinal xi ´e multiplicado por um valor wi , o peso. A soma ponderada dos valores de entrada corresponde a um n´ıvel de atividade do neurˆonio. Se o n´ıvel de atividade for superior a um determinado limite Θ, uma sa´ıda y de valor 1 ser´a produzida. Caso contr´ario, a sa´ıda ser´a o valor 0 (Equa¸ca˜o .). y=. (. P 1 se i wi x i > Θ 0 caso contr´ario. (.).

Referências

Documentos relacionados

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

Portanto, dietas com diferentes níveis de óleo de buriti afetaram o consumo, digestibilidade e o comportamento ingestivo dos animais, no entanto, não afetam o

Podemos, portanto, concluir que o preconceito quanto à origem geográfica em relação ao nordestino está associado não só à forma como a região e o seu habitante foram descritos,

Promovido pelo Sindifisco Nacio- nal em parceria com o Mosap (Mo- vimento Nacional de Aposentados e Pensionistas), o Encontro ocorreu no dia 20 de março, data em que também

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Busca, ainda, em sede de liminar, que a autoridade coatora seja compelida a se abster de qualquer ato punitivo aos servidores, em face dos dias parados, até porque, em recente

O professor apresentou textos próximos do conhecimento de mundo e das experiências de leitura dos alunos, para que eles percebessem significação no assunto tratado. A fim

Significado do Grupo Rio Doce no Contexto do Orógeno Araçuaí 36 às suítes G1, G2 e G5, aflorantes na região desta tese. Silva