Varia¸c˜oes na Entrada de Dados

3.2 Estado da Arte

3.2.2 Varia¸c˜oes na Entrada de Dados

A partir do sucesso alcan¸cado com a abordagem de Qian e Sejnowski, diferentes arqui- teturas, algoritmos e tratamento de entrada de dados foram experimentados [Baldi and Brunak, 2001, Rost, 2001]. Um avan¸co significativo nas predi¸cões foi obtido através da introdu¸cão de mais informa¸cão biológica para as redes, mais especificamente informa¸cões evolucionárias, por meio do uso de perfis das seqüências de prote´ınas como dados de entrada. Ao contrário das seqüências que fornecem apenas uma informa¸cão local, os perfis refinam a busca no banco de dados identificando rela¸cões mais distantes, permitindo assim uma maior precisão na predi¸cão.

Um exemplo deste ganho pode ser visto no trabalho de Rost e Sander [Rost and Sander, 1993b] o qual resultou no conhecido preditor PHD

3.2 estado da arte 37

[Rost and Sander, 1993b, Rost and Sander, 1993a, Rost and Sander, 1994]. Rost e San- der aplicaram a mesma estrutura que gerou os melhores resultados na proposta de Qian et al., porém, utilizando como dados de entrada os perfis de freqüência. Tais perfis são arma- zenados em matrizes, cujas entradas são calculadas com base na freqüência de cada um dos 20 aminoácidos nas colunas de alinhamentos múltiplos das seqüências obtidos no banco HSSP (Homology-derived Secondary Structure of Proteins) [Sander and Schneider, 1991]. Nesta aplica¸cão, cada aminoácido é representado por 21 números: 20 linhas da matriz do perfil e o número 1 indicando a sobreposi¸cão com os N- e C-terminals. Além do formato de entrada um outro ponto diferencial foi introduzido por Rost e Sander: o treinamento balanceado. Em prote´ınas globulares, o número de res´ıduos coils é significativamente alto ao comparamos com o número de hélices e fitas. Para o banco de dados utilizado por Rost e Sander a distribui¸cão é de 32% de hélices α, 21% de fitas β e 47% de coils. Isto causa um valor alto para predi¸cão de coils e baixo para as fitas β, as quais aparecem em menor propor¸cão. Utilizando o treinamento balanceado cada classe de estrutura secundária é utilizada em igual propor¸cão, melhorando assim a predi¸cão para a classe fita β.

As sa´ıdas da rede que realiza a predi¸cão da classe baseada na seqüência, rotulada seqüência estrutura, são agrupadas de modo a corresponder a janelas de tamanho 17 nas seqüências e filtradas por uma segunda rede, denominada estrutura estrutura. O treinamento estrutural permite o reconhecimento do tamanho da distribui¸cão de hélices e de fitas. Um júri composto de 12 destas redes é utilizado para combinar as predi¸cões assim obtidas através da maioria simples, resultando num desempenho Q3de 71,9%, ou seja, cerca de 7 pontos percentuais superior ao melhor resultado reportado em [Qian and Sejnowski, 1988].

Um outro aspecto a ser considerado pelos classificadores é o tamanho dos dados de entrada. Através da representa¸cão ortogonal, ou mesmo a utiliza¸cão de perfis, cerca de 20 nós são necessários na camada de entrada para a codifica¸cão de cada aminoácido de uma janela. Uma abordagem interessante para tal problema foi proposta por Riis e Krogh [Riis and Krogh, 1996]. As topologias das redes utilizadas pelo preditor foram projetadas de forma a reduzir o número de parâmetros, evitando assim o overfitting, ou seja, a possibilidade da rede “decorar” os dados do conjunto de treinamento, perdendo sua capacidade de generaliza¸cão na classifica¸cão de um novo exemplo.

Para treinamento e teste das redes, Riis e Krogh utilizaram o banco de dados RS126, desenvolvido por Rost e Sander [Rost and Sander, 1994]. Empregado por diversos preditores, o RS126 consiste de 126 prote´ınas globulares não-homólogas, obtidas na versão 1.0 do banco de dados HSSP [Sander and Schneider, 1991]. A medida de homologia utilizada

3.2 estado da arte 38

para sele¸cão das seqüências foi a similaridade entre pares, cujo percentual de identidade aceito era de no máximo 25% para seqüências com mais de 80 res´ıduos.

A codifica¸cão local dos aminoácidos é feita aplicando um caso particular do método weight sharing. Neste, as próprias redes escolhem a melhor representa¸cão para os aminoácidos, os quais são inicialmente codificados ortogonalmente. Os 20 valores as- sociados a cada aminoácido são conectados a M unidades na camada escondida através de 20× M pesos. Para for¸car que cada aminoácido tenha a mesma codifica¸cão, o algoritmo backpropagation é modificado de forma que na atualiza¸cão os pesos compartilhem os mesmos valores [Cun et al., 1989].

Após a codifica¸cão, janelas de 15 aminoácidos são informadas a redes desenvolvidas para predizer cada uma das três classes separadamente (Hélice, Fita e Coil). Tais redes contém apenas uma sa´ıda e a decisão é baseada num limite de 0,5. Se a sa´ıda é maior do que este valor então a entrada correspondente é classificada como sendo da estrutura em considera¸cão.

Para a fase de treinamento e teste, o método da avalia¸cão usado foi uma varia¸cão econômica de valida¸cão cruzada (também conhecida como jack-knife). No método de valida¸cão cruzada completo, o processo de remover uma prote´ına do conjunto de dados, treinar a rede com as N_{−1 prote´ınas restantes e utilizar a prote´ına removida do conjunto} para avaliar o desempenho é repetido ciclicamente para cada prote´ına no conjunto. Para economizar o tempo de processamento, o conjunto de dados é dividido em M subconjun- tos, treinando a rede com os ((M _{− 1)N)/M conjuntos e efetuando o teste com as N/M} prote´ınas removidas. No experimento de Rost e Sander a varia¸cão do jack-knife utilizada foi o seven-fold cross-validation. Em outras palavras, o valor escolhido para M foi sete.

Para predizer cada tipo de estrutura secundária, uma combina¸cão de cinco dessas redes é utilizada, cada uma com diferentes números de nós na camada escondida. Com a codifica¸cão empregada, o número de pesos ajustáveis de todas as redes juntas é menor que 600. As sa´ıdas de cada grupo de cinco redes são combinadas por uma outra rede estrutura estrutura, cuja predi¸cão do res´ıduo central é escolhida como a maior das três sa´ıdas, as quais são normalizadas com a fun¸cão Softmax [Bridle, 2000], [Duda et al., 2001]. Com este arranjo, o desempenho Q3alcan¸cado utilizando seqüências de prote´ınas como entrada foi de 66,3%.

Adaptando o método para considerar os alinhamentos múltiplos das seqüências o preditor de Riis e Krogh alcan¸ca uma taxa de acerto de 71,3%. Nesta abordagem, para evitar a perda de correla¸cões entre os aminoácidos, as predi¸cões são feitas para seqüências simples e então combinadas através de alinhamentos múltiplos [Levin et al., 1993]. Neste

3.2 estado da arte 39

método, para cada prote´ına, chamada prote´ına base, um conjunto de prote´ınas homólogas é encontrado. Então, a predi¸cão de estrutura secundária é feita para cada prote´ına no conjunto, incluindo a prote´ına base, utilizando o procedimento descrito anteriormente. As prote´ınas do conjunto são alinhadas e um peso é associado a cada uma delas. Em seguida, uma predi¸cão consenso é encontrada para cada coluna do alinhamento, baseada nas predi¸cões realizadas para cada aminoácido na coluna. Este consenso pode ser obtido por um dos métodos, weighted average ou weighted majority. No primeiro método, as predi¸cões de cada classe são multiplicadas pelo peso da prote´ına e então somadas. A maior das três somas determinará a predi¸cão para a coluna correspondente. No método weighted majority, a predi¸cão de cada aminoácido na coluna é escolhida como sendo a maior das três sa´ıdas. Os pesos para cada classe são somados e, então, a classe que obtiver a maior soma é escolhida como a predi¸cão do aminoácido daquela coluna.

Dentre as aplica¸cões mais recentes, um aumento significativo no desempenho foi obtido através de uma modifica¸cão do tipo de entrada. Particularmente, o uso de perfis PSI Blast [Przybylski and Rost, 2002] contribuiu para aumentar a capacidade de deteçcão de informa¸cão divergente, isto é, a identifica¸cão de membros de fam´ılias de prote´ınas que divergiram muito em conseqüência de fatores como evolu¸cão, por exemplo. Os perfis PSI Blast são gerados como parte do programa de busca homônimo [Altschul et al., 1997], o qual pode encontrar homólogos distantes de seqüências num banco de dados. Este programa constrói um perfil, também denominado PSSM (do inglês Position Specific Scoring Matrix), a partir de um alinhamento múltiplo de seqüências que apresentaram um alto grau de similaridade com a seqüência de entrada, medido numa busca inicial. O perfil é gerado com base no cálculo das pontua¸cões de cada posi¸cão do alinhamento, levando em conta a freqüência do aminoácido. Casamentos (isto é, matchings) de posi¸cões altamente conservadas recebem pontua¸cões altas, enquanto casamentos em posi¸cões de conserva¸cão fraca recebem pontua¸cões próximas de zero. Este processo é repetido até a convergência (ou um certo número de vezes definido pelo usuário), sendo o perfil utilizado para refinar o processo de busca. A Figura 3.2 traz o exemplo de um perfil PSI Blast constru´ıdo para a seqüência 1acx.

Este tipo de entrada foi proposto pela primeira vez por Jones [Jones, 1999] no preditor PSIPRED. Como os perfis PSI Blast são muito sens´ıveis e podem incorporar seqüências patológicas no processo de busca, Jones sugere uma fase de pré-processamento, onde seqüências de baixa complexidade, tais como segmentos de transmembrana e regiões coiled-coil [Branden and Tooze, 1999], são filtradas do banco de dados utilizado para gerar tais perfis.

3.2 estado da arte 40

Figura 3.2. Exemplo de perfil PSI Blast. Na figura ´e exibido parte do perfil PSI Blast cons-

tru´ıdo para a seq¨uˆencia 1acx.

A arquitetura do preditor PSIPRED consiste de uma rede seqüência estrutura com uma janela de entrada de tamanho 15, cujos aminoácidos são representados através das linhas da matriz contendo o perfil PSI Blast da seqüência correspondente, com 75 nós na camada escondida e 3 na camada de sa´ıda. Nesta abordagem, sa´ıdas sucessivas, cor- respondentes a uma janela de tamanho 15 na seqüência, também são filtradas por uma segunda rede, estrutura estrutura, com 60 nós na camada escondida. O algoritmo utilizado para treinamento foi o backpropagation com um termo de momentum de 0, 9 e taxa de aprendizagem de 0,005. Para avaliar o desempenho, 10% do conjunto de treinamento é reservado. Desta forma, o desempenho Q3 obtido pelo preditor PSIPRED ficou entre 76,5% e 78,3%. Jones sugere em seu trabalho que a simples substitui¸cão da entrada por perfis PSI Blast pode melhorar o desempenho de outros preditores [Jones, 1999]. Num es- tudo realizado por Cuff e Barton [Cuff and Barton, 2000] foi estimado que o crescimento médio da taxa de acerto das predi¸cões com perfis PSI Blast foi de 0,5 ponto percentual em rela¸cão a predi¸cões realizadas com alinhamentos múltiplos gerados com o programa CLUSTALW [Thompson et al., 1994].

No documento Análise de estruturas de proteínas (páginas 52-56)