• Nenhum resultado encontrado

Varia¸c˜oes na Entrada de Dados

No documento Análise de estruturas de proteínas (páginas 52-56)

3.2 Estado da Arte

3.2.2 Varia¸c˜oes na Entrada de Dados

A partir do sucesso alcan¸cado com a abordagem de Qian e Sejnowski, diferentes arqui- teturas, algoritmos e tratamento de entrada de dados foram experimentados [Baldi and Brunak, 2001, Rost, 2001]. Um avan¸co significativo nas predi¸c˜oes foi obtido atrav´es da introdu¸c˜ao de mais informa¸c˜ao biol´ogica para as redes, mais especificamente informa¸c˜oes evolucion´arias, por meio do uso de perfis das seq¨uˆencias de prote´ınas como dados de entrada. Ao contr´ario das seq¨uˆencias que fornecem apenas uma informa¸c˜ao local, os perfis refinam a busca no banco de dados identificando rela¸c˜oes mais distantes, permitindo assim uma maior precis˜ao na predi¸c˜ao.

Um exemplo deste ganho pode ser visto no trabalho de Rost e Sander [Rost and Sander, 1993b] o qual resultou no conhecido preditor PHD

3.2 estado da arte 37

[Rost and Sander, 1993b, Rost and Sander, 1993a, Rost and Sander, 1994]. Rost e San- der aplicaram a mesma estrutura que gerou os melhores resultados na proposta de Qian et al., por´em, utilizando como dados de entrada os perfis de freq¨uˆencia. Tais perfis s˜ao arma- zenados em matrizes, cujas entradas s˜ao calculadas com base na freq¨uˆencia de cada um dos 20 amino´acidos nas colunas de alinhamentos m´ultiplos das seq¨uˆencias obtidos no banco HSSP (Homology-derived Secondary Structure of Proteins) [Sander and Schneider, 1991]. Nesta aplica¸c˜ao, cada amino´acido ´e representado por 21 n´umeros: 20 linhas da matriz do perfil e o n´umero 1 indicando a sobreposi¸c˜ao com os N- e C-terminals. Al´em do formato de entrada um outro ponto diferencial foi introduzido por Rost e Sander: o treinamento balanceado. Em prote´ınas globulares, o n´umero de res´ıduos coils ´e significativamente alto ao comparamos com o n´umero de h´elices e fitas. Para o banco de dados utilizado por Rost e Sander a distribui¸c˜ao ´e de 32% de h´elices α, 21% de fitas β e 47% de coils. Isto causa um valor alto para predi¸c˜ao de coils e baixo para as fitas β, as quais aparecem em menor propor¸c˜ao. Utilizando o treinamento balanceado cada classe de estrutura secund´aria ´e utilizada em igual propor¸c˜ao, melhorando assim a predi¸c˜ao para a classe fita β.

As sa´ıdas da rede que realiza a predi¸c˜ao da classe baseada na seq¨uˆencia, rotulada seq¨uˆencia estrutura, s˜ao agrupadas de modo a corresponder a janelas de tamanho 17 nas seq¨uˆencias e filtradas por uma segunda rede, denominada estrutura estrutura. O treina- mento estrutural permite o reconhecimento do tamanho da distribui¸c˜ao de h´elices e de fi- tas. Um j´uri composto de 12 destas redes ´e utilizado para combinar as predi¸c˜oes assim ob- tidas atrav´es da maioria simples, resultando num desempenho Q3de 71,9%, ou seja, cerca de 7 pontos percentuais superior ao melhor resultado reportado em [Qian and Sejnowski, 1988].

Um outro aspecto a ser considerado pelos classificadores ´e o tamanho dos dados de entrada. Atrav´es da representa¸c˜ao ortogonal, ou mesmo a utiliza¸c˜ao de perfis, cerca de 20 n´os s˜ao necess´arios na camada de entrada para a codifica¸c˜ao de cada amino´acido de uma janela. Uma abordagem interessante para tal problema foi proposta por Riis e Krogh [Riis and Krogh, 1996]. As topologias das redes utilizadas pelo preditor foram projetadas de forma a reduzir o n´umero de parˆametros, evitando assim o overfitting, ou seja, a possibilidade da rede “decorar” os dados do conjunto de treinamento, perdendo sua capacidade de generaliza¸c˜ao na classifica¸c˜ao de um novo exemplo.

Para treinamento e teste das redes, Riis e Krogh utilizaram o banco de dados RS126, desenvolvido por Rost e Sander [Rost and Sander, 1994]. Empregado por diversos predi- tores, o RS126 consiste de 126 prote´ınas globulares n˜ao-hom´ologas, obtidas na vers˜ao 1.0 do banco de dados HSSP [Sander and Schneider, 1991]. A medida de homologia utilizada

3.2 estado da arte 38

para sele¸c˜ao das seq¨uˆencias foi a similaridade entre pares, cujo percentual de identidade aceito era de no m´aximo 25% para seq¨uˆencias com mais de 80 res´ıduos.

A codifica¸c˜ao local dos amino´acidos ´e feita aplicando um caso particular do m´etodo weight sharing. Neste, as pr´oprias redes escolhem a melhor representa¸c˜ao para os amino´acidos, os quais s˜ao inicialmente codificados ortogonalmente. Os 20 valores as- sociados a cada amino´acido s˜ao conectados a M unidades na camada escondida atrav´es de 20× M pesos. Para for¸car que cada amino´acido tenha a mesma codifica¸c˜ao, o algo- ritmo backpropagation ´e modificado de forma que na atualiza¸c˜ao os pesos compartilhem os mesmos valores [Cun et al., 1989].

Ap´os a codifica¸c˜ao, janelas de 15 amino´acidos s˜ao informadas a redes desenvolvidas para predizer cada uma das trˆes classes separadamente (H´elice, Fita e Coil). Tais redes cont´em apenas uma sa´ıda e a decis˜ao ´e baseada num limite de 0,5. Se a sa´ıda ´e maior do que este valor ent˜ao a entrada correspondente ´e classificada como sendo da estrutura em considera¸c˜ao.

Para a fase de treinamento e teste, o m´etodo da avalia¸c˜ao usado foi uma varia¸c˜ao econˆomica de valida¸c˜ao cruzada (tamb´em conhecida como jack-knife). No m´etodo de valida¸c˜ao cruzada completo, o processo de remover uma prote´ına do conjunto de dados, treinar a rede com as N−1 prote´ınas restantes e utilizar a prote´ına removida do conjunto para avaliar o desempenho ´e repetido ciclicamente para cada prote´ına no conjunto. Para economizar o tempo de processamento, o conjunto de dados ´e dividido em M subconjun- tos, treinando a rede com os ((M − 1)N)/M conjuntos e efetuando o teste com as N/M prote´ınas removidas. No experimento de Rost e Sander a varia¸c˜ao do jack-knife utilizada foi o seven-fold cross-validation. Em outras palavras, o valor escolhido para M foi sete.

Para predizer cada tipo de estrutura secund´aria, uma combina¸c˜ao de cinco dessas redes ´e utilizada, cada uma com diferentes n´umeros de n´os na camada escondida. Com a codifica¸c˜ao empregada, o n´umero de pesos ajust´aveis de todas as redes juntas ´e menor que 600. As sa´ıdas de cada grupo de cinco redes s˜ao combinadas por uma outra rede estru- tura estrutura, cuja predi¸c˜ao do res´ıduo central ´e escolhida como a maior das trˆes sa´ıdas, as quais s˜ao normalizadas com a fun¸c˜ao Softmax [Bridle, 2000], [Duda et al., 2001]. Com este arranjo, o desempenho Q3alcan¸cado utilizando seq¨uˆencias de prote´ınas como entrada foi de 66,3%.

Adaptando o m´etodo para considerar os alinhamentos m´ultiplos das seq¨uˆencias o preditor de Riis e Krogh alcan¸ca uma taxa de acerto de 71,3%. Nesta abordagem, para evitar a perda de correla¸c˜oes entre os amino´acidos, as predi¸c˜oes s˜ao feitas para seq¨uˆencias simples e ent˜ao combinadas atrav´es de alinhamentos m´ultiplos [Levin et al., 1993]. Neste

3.2 estado da arte 39

m´etodo, para cada prote´ına, chamada prote´ına base, um conjunto de prote´ınas hom´ologas ´e encontrado. Ent˜ao, a predi¸c˜ao de estrutura secund´aria ´e feita para cada prote´ına no conjunto, incluindo a prote´ına base, utilizando o procedimento descrito anteriormente. As prote´ınas do conjunto s˜ao alinhadas e um peso ´e associado a cada uma delas. Em seguida, uma predi¸c˜ao consenso ´e encontrada para cada coluna do alinhamento, baseada nas predi¸c˜oes realizadas para cada amino´acido na coluna. Este consenso pode ser obtido por um dos m´etodos, weighted average ou weighted majority. No primeiro m´etodo, as predi¸c˜oes de cada classe s˜ao multiplicadas pelo peso da prote´ına e ent˜ao somadas. A maior das trˆes somas determinar´a a predi¸c˜ao para a coluna correspondente. No m´etodo weighted majority, a predi¸c˜ao de cada amino´acido na coluna ´e escolhida como sendo a maior das trˆes sa´ıdas. Os pesos para cada classe s˜ao somados e, ent˜ao, a classe que obtiver a maior soma ´e escolhida como a predi¸c˜ao do amino´acido daquela coluna.

Dentre as aplica¸c˜oes mais recentes, um aumento significativo no desempenho foi obtido atrav´es de uma modifica¸c˜ao do tipo de entrada. Particularmente, o uso de perfis PSI Blast [Przybylski and Rost, 2002] contribuiu para aumentar a capacidade de detec¸c˜ao de in- forma¸c˜ao divergente, isto ´e, a identifica¸c˜ao de membros de fam´ılias de prote´ınas que divergiram muito em conseq¨uˆencia de fatores como evolu¸c˜ao, por exemplo. Os perfis PSI Blast s˜ao gerados como parte do programa de busca homˆonimo [Altschul et al., 1997], o qual pode encontrar hom´ologos distantes de seq¨uˆencias num banco de dados. Este pro- grama constr´oi um perfil, tamb´em denominado PSSM (do inglˆes Position Specific Scoring Matrix), a partir de um alinhamento m´ultiplo de seq¨uˆencias que apresentaram um alto grau de similaridade com a seq¨uˆencia de entrada, medido numa busca inicial. O perfil ´e gerado com base no c´alculo das pontua¸c˜oes de cada posi¸c˜ao do alinhamento, levando em conta a freq¨uˆencia do amino´acido. Casamentos (isto ´e, matchings) de posi¸c˜oes altamente conservadas recebem pontua¸c˜oes altas, enquanto casamentos em posi¸c˜oes de conserva¸c˜ao fraca recebem pontua¸c˜oes pr´oximas de zero. Este processo ´e repetido at´e a convergˆencia (ou um certo n´umero de vezes definido pelo usu´ario), sendo o perfil utilizado para refinar o processo de busca. A Figura 3.2 traz o exemplo de um perfil PSI Blast constru´ıdo para a seq¨uˆencia 1acx.

Este tipo de entrada foi proposto pela primeira vez por Jones [Jones, 1999] no preditor PSIPRED. Como os perfis PSI Blast s˜ao muito sens´ıveis e podem incorporar seq¨uˆencias patol´ogicas no processo de busca, Jones sugere uma fase de pr´e-processamento, onde seq¨uˆencias de baixa complexidade, tais como segmentos de transmembrana e regi˜oes coiled-coil [Branden and Tooze, 1999], s˜ao filtradas do banco de dados utilizado para gerar tais perfis.

3.2 estado da arte 40

Figura 3.2. Exemplo de perfil PSI Blast. Na figura ´e exibido parte do perfil PSI Blast cons-

tru´ıdo para a seq¨uˆencia 1acx.

A arquitetura do preditor PSIPRED consiste de uma rede seq¨uˆencia estrutura com uma janela de entrada de tamanho 15, cujos amino´acidos s˜ao representados atrav´es das linhas da matriz contendo o perfil PSI Blast da seq¨uˆencia correspondente, com 75 n´os na camada escondida e 3 na camada de sa´ıda. Nesta abordagem, sa´ıdas sucessivas, cor- respondentes a uma janela de tamanho 15 na seq¨uˆencia, tamb´em s˜ao filtradas por uma segunda rede, estrutura estrutura, com 60 n´os na camada escondida. O algoritmo utili- zado para treinamento foi o backpropagation com um termo de momentum de 0, 9 e taxa de aprendizagem de 0,005. Para avaliar o desempenho, 10% do conjunto de treinamento ´e reservado. Desta forma, o desempenho Q3 obtido pelo preditor PSIPRED ficou entre 76,5% e 78,3%. Jones sugere em seu trabalho que a simples substitui¸c˜ao da entrada por perfis PSI Blast pode melhorar o desempenho de outros preditores [Jones, 1999]. Num es- tudo realizado por Cuff e Barton [Cuff and Barton, 2000] foi estimado que o crescimento m´edio da taxa de acerto das predi¸c˜oes com perfis PSI Blast foi de 0,5 ponto percentual em rela¸c˜ao a predi¸c˜oes realizadas com alinhamentos m´ultiplos gerados com o programa CLUSTALW [Thompson et al., 1994].

No documento Análise de estruturas de proteínas (páginas 52-56)

Documentos relacionados