O Preditor de Estrutura Secund´aria NNPSS

medida de forma apropriada entre as prote´ınas representadas pelas seqüências utilizadas para teste e treinamento. Cuff e Barton refor¸cam a importância da utiliza¸cão de bancos de dados com esta caracter´ıstica como uma forma de evitar desempenhos que não correspondem à realidade. No banco de dados desenvolvido por eles, ao invés do percentual de identidade utilizado como critério de sele¸cão no RS126, as seqüências são escolhidas por meio de um algoritmo de compara¸cão bastante preciso e de análise de clusters aplicados ao banco de dados 3Dee, um banco de dados contendo defini¸cões es- truturais de dom´ınios [Siddiqui et al., 2001]. Segmentos com multi-dom´ınios, seqüências com resolu¸cão de cristalografia por raios X menor ou igual a 2,5˚A, bem como seqüências similares àquelas presentes no RS126, são removidas. As 396 seqüências resultantes deste processo compõem o CB396. Nesta fase foi aplicado o método cross validation e uma das medidas de desempenho reportadas foi o Q3.

Dos quatro preditores avaliados por Cuff e Barton o que apresentou melhor desempenho individual foi o PHD, que alcan¸cou um desempenho Q3 de 73,5% para o banco de dados RS126 e 71,9% quando avaliado sobre o banco CB396. Porém os melhores ´ındices foram alcan¸cados com o preditor CONSENSUS, posteriormente chamado de JNet, resul- tante da combina¸cão dos métodos avaliados. A taxa de acerto obtida com este foi de 74,8% para o RS126 e 72,9% para o banco CB396.

3.3 O PREDITOR DE ESTRUTURA SECUND ´ARIA NNPSS

Podemos observar que, para obter melhores resultados, os recursos computacionais requeridos são cada vez maiores. Além da complexidade intr´ınseca a cada classificador individualmente, a maioria dos preditores combina algo como oito, onze, doze, ou mesmo oi- tocentas predi¸cões [Baldi et al., 1999], [Pollastri et al., 2002], [Rost and Sander, 1993b], [Petersen et al., 2000], conforme explanado anteriormente. Propostas de simplifica¸cão de arquitetura foram apresentadas recentemente [Lin et al., 2005], porém os métodos per- dem em eficiência. Tendo como base o estudo relatado na se¸cão precedente, desenvolve- mos um preditor de estrutura secundária, o GMC [Guimarães et al., 2003], [Guimarães et al., 2002], atualmente designado por NNPSS (Neural Network based Pro- tein Secondary Structure Predictor). O objetivo foi obter um preditor que fosse ao mesmo tempo simples, em termos de arquitetura, visando diminuir o número de classificadores envolvidos, e eficiente, buscando alcan¸car resultados no m´ınimo comparáveis aos métodos desenvolvidos previamente, avaliados sobre os bancos de dados RS126 e CB396.

Os desempenhos reportados no estudo comparativo realizado por Cuff e Barton [Cuff and Barton, 1999] foram utilizados como referˆencia para avaliar o m´etodo aqui apre-

3.3 o preditor de estrutura secund´aria nnpss 46

sentado.

O preditor consiste de três redes neurais treinadas com uma varia¸cão eficiente do algoritmo backpropagation, o RPROP, e combinadas por diferentes regras. O desempenho médio Q3 alcan¸cado para o RS126 foi de 74,1%, e de 75,9% para o CB396. Os resultados apresentaram pouca variabilidade, que pode ser demonstrada pelo baixo desvio padrão calculado para ambos os experimentos: menos de 1,5 pontos percentuais para o RS126 e próximo de 2 pontos percentuais para o CB396. Ao compararmos com os resultados reportados no trabalho de Cuff e Barton [Cuff and Barton, 1999], o ´ındice alcan¸cado pelo NNPSS com o RS126 foi superado apenas pelo CONSENSUS que atingiu 74,8%. O percentual obtido com o CB396 por sua vez é o melhor resultado publicado para este banco de dados superando em três pontos percentuais o desempenho obtido com o CONSENSUS.

A metodogia aplicada no desenvolvimento do preditor NNPSS é descrita nas subse¸cões seguintes, juntamente com a análise dos resultados com ele obtidos.

3.3.1 Dados Utilizados

A fim de obter resultados compar´aveis a outros preditores, os experimentos foram realizados com dois bancos de dados estabelecidos:

i) RS126, desenvolvido por Rost e Sander [Rost and Sander, 1994], bastante utilizado para testes de preditores, e,

ii) CB396, desenvolvido por Cuff e Barton [Cuff and Barton, 1999], em um trabalho que contém uma compara¸cão com vários outros métodos e cujas seqüências foram escolhidas através de um procedimento mais seletivo, eliminando inclusive seqüências similares às presentes no RS126.

Em ambos os bancos de dados a atribui¸cão de tipos de estrutura secundária foi feita pelo programa DSSP [Kabsch and Sander, 1983]. Neste algoritmo, os oito estados retor- nados são convertidos a três classes na seguinte maneira: a hélices α e 310 estão na classe hélice (H), as fitas β e β bridge são classificados como fita (representados por E) e os estados restantes, a saber, hélice π, extended strand, isolated β bridge, turn, bend e rest, são colocados na classe coil (C).

E importante observar que definir elementos de estrutura secundária a partir das coor- denadas atômicas é um processo inexato. Isto se deve a diferen¸cas na defini¸cão de estrutura secundária e mesmo a erros e inconsistências na obten¸cão experimental da estrutura

3.3 o preditor de estrutura secund´aria nnpss 47

[Cuff and Barton, 1999]. O método DSSP foi escolhido por ser a defini¸cão mais aceita e, conseqüentemente, mais utilizada na literatura. Exemplos de outros métodos de defini¸cão de estrutura secundária dispon´ıveis atualmente são DEFINE [Richards and Kundrot, 1988] e STRIDE [Frishman and Argos, 1995].

Para treinamento e teste das redes, no lugar das seqüências foram utilizados perfis PSI Blast [Altschul et al., 1997], obtidos como parte do processo de busca sobre o banco não redundante de prote´ınas do NCBI [Benson et al., 2002]. Em outras palavras, os perfis PSI Blast foram utilizados para codificar os aminoácidos das seqüências informadas às redes. Estes perfis são representados por matrizes (position-specific scoring matrices), cada uma com N _{× 20 elementos, onde N é o tamanho da seqüência de entrada. Os 20} aminoácidos que compõem o alfabeto onde são definidas as seqüências de prote´ınas são dispostos nas colunas, sendo os res´ıduos que compõem a seqüência usados para rotular as linhas.

Os três tipos de perfis usados como dados de entrada foram obtidos por dois tipos dos processos. Num deles, para cada seqüência na base de dados CB396 ou RS126, o programa PSI Blast foi executado com parâmetros default sobre o banco de dados de seqüências não redundantes de prote´ınas do NCBI [Benson et al., 2002]. Os processos foram parados após três itera¸cões, gerando o perfil PSI Blast (conjunto rotulado PSI Blast) e o perfil de Freqüência (conjunto rotulado PSI Freq). O outro conjunto de dados de entrada (rotulado PSI Blast CS) foi gerado por um processo similar ao descrito anteriormente, porém configurando os filtros COIL e SEG da ferramenta. Desta forma, as regiões coiled-coil e as de baixa complexidade foram marcadas. Os melhores resultados foram obtidos com o conjunto PSI Blast, sendo estes reportados no atual cap´ıtulo. Os resultados obtidos com os demais perfis não foram significativos, porém, podem ser consultados no Apêndice A. Treze linhas adjacentes de cada matriz gerada pelo programa PSI Blast, representando uma janela de tamanho 13 nas seqüências, foram usadas como entrada para as três redes neurais do preditor, sendo a predi¸cão realizada em rela¸cão ao res´ıduo central da janela.

3.3.2 M´etodo de Avalia¸c˜ao

No experimento aqui descrito foi utilizado o método de avalia¸cão seven-fold cross- validation. O banco RS126 foi particionado em sete subconjuntos da forma relatada em [Riis and Krogh, 1996]. O banco CB396 foi dividido aleatoriamente em sete partes de tamanhos aproximadamente iguais. Os resultados relatados aqui se referem à média de desempenho dos sete diferentes conjuntos de teste, com os desvios padrão correspondentes.

3.3 o preditor de estrutura secund´aria nnpss 48

O desempenho da rede é avaliado através da medida Q3 [Schulz and Schirmer, 1979] (Equa¸cão .), a qual fornece a percentagem de res´ıduos classificados corretamente.

3.3.3 Algoritmo de Treinamento

Um dos pontos diferenciais do preditor aqui apresentado foi o algoritmo de treinamento escolhido. Enquanto a grande maioria dos classificadores dispon´ıveis hoje em dia utiliza o tradicional backpropagation para treinamento das redes, na atual abordagem uma varia¸cão econômica do backpropagation é utilizada, o algoritmo RPROP [Riedmiller and Braun, 1993].

Desenvolvido por Riedmiller e Braun, o RPROP (Resilient PROPagation) tem como princ´ıpio b´asico buscar eliminar a influˆencia prejudicial do tamanho do vetor da derivada parcial (∂E

∂w) no processo de atualiza¸cão dos pesos. Neste algoritmo apenas o sinal da derivada é considerado, ignorando o valor do gradiente descendente. Os pesos são atua- lizados da seguinte forma: se o valor da derivada parcial for positivo (indicando fun¸cão de erro crescente), será subtra´ıdo do peso um determinado valor u; caso a derivada seja negativa (erro decrescente), o valor u é adicionado ao peso. O valor u é calculado com base no sentido (isto é, no sinal) do gradiente. Se o gradiente atual estiver no mesmo sentido do gradiente precedente, será somado um fator a u. Se os sentidos são opostos, o fator é subtra´ıdo.

Especificamente, os valores adotados para os parâmetros foram: a inicializa¸cão dos pesos com o valor 0,07, sendo 50 o valor máximo que estes podem atingir; os pesos podem ainda ser incrementados de um fator de 1,2 ou decrementados de um fator de 0,5.

Utilizando o sinal da derivada ao invés de seu valor, como ocorre no backpropagation, o RPROP adquire algumas vantagens, tais como a redu¸cão do número de épocas necessárias para o treinamento bem como do esfor¸co computacional, além da robustez em termos da adapta¸cão de seus parâmetros iniciais.

3.3.4 Combina¸c˜ao de Classificadores

A combina¸cão de redes neurais objetiva melhorar a classifica¸cão, procurando tirar vantagem de cada classificador individualmente. Esta técnica tem contribu´ıdo para melhorar o desempenho dos preditores de estrutura secundária [Pollastri et al., 2002], [Petersen et al., 2000], [Cuff and Barton, 1999].

Uma condi¸cão necessária para que a aproxima¸cão seja funcional é que cada classificador na combina¸cão deve observar um m´ınimo local diferente. Para obter este requisito

3.3 o preditor de estrutura secund´aria nnpss 49

existem algumas estrat´egias, tais como, iniciar os pesos de forma diferenciada para cada uma das redes envolvidas, ou utilizar algoritmos de aprendizagem diferentes em cada uma delas, ou mesmo modificar a topologia da rede neural. Nas experiˆencias relatadas aqui a ´

ultima estrat´egia foi adotada.

Três redes neurais completamente conectadas com uma camada escondida foram usadas. Elas foram treinadas com o mesmo conjunto de dados. O diferencial entre as redes está no fato de que cada delas tem um número distinto de nós na camada intermediária: 30, 35 e 40 nós. Os números de nós foram determinados após uma série experiências pre- liminares. A camada da sa´ıda tem o mesmo número de nós, 3, para todas as redes, um para cada classe: hélice, fita e coil (Figura 3.4), as quais são codificadas ortogonalmente.

Rede Neural 1 Rede Neural 2 Rede Neural 3 Regra de Combinação Dados _Classe

Figura 3.4.As Redes 1, 2, e 3 possuem 30, 35 e 40 n´os na camada escondida, respectivamente.

Embora a Vota¸cão seja a regra de combina¸cão mais utilizada por preditores de estrutura secundária, mais quatro regras foram experimentadas além dela: Produto, Média, Máximo e M´ınimo. Na regra da Vota¸cão a classe de sa´ıda escolhida entre as três redes é aquela que ocorre com maior freqüência, isto é, a mais votada. Para as demais regras foram utilizadas sa´ıdas normalizadas através da fun¸cão Softmax [Duda et al., 2001], [Bridle, 2000]. A fun¸cão de ativa¸cão Softmax impõe que as sa´ıdas das redes recaiam entre 0 e 1 e que sua soma seja 1. Denotando o valor de entrada dado pela rede para cada unidade de sa´ıda por qi, i = 1,· · · , c, onde c é o número de classes, a sa´ıda pi dada pela fun¸cão softmax para cada qi é dada por:

pi = eqi Pc

j=1eqj

(.)

As regras do Produto e da Média são baseadas nas opera¸cões que as nomeiam. O produto (média) é aplicado nas sa´ıdas correspondentes de cada rede, e a classe escolhida é aquela que alcan¸ca o valor mais elevado. A regra do M´ınimo procede da seguinte maneira: para uma determinada classe o menor valor reportado por cada uma das redes é pego. A classe escolhida será aquela que apresentar o maior valor entre os menores.

3.4 resultados 50

Finalmente, na regra do Máximo, o valor mais elevado entre os maiores reportados par cada rede é adotado [Tresp, 2001]. A equa¸cão de cada regra da combina¸cão é mostrada a seguir:

• Produto

max(Π3_i=1N Ni1, Π3i=1N Ni2, Π3i=1N Ni3)

• M´edia max(1/3 3 X i=1 N Ni1, 1/3 3 X i=1 N Ni2, 1/3 3 X i=1 N Ni3) • M´ınimo

max(min(N Ni1), min(N Ni2), min(N Ni3))

• M´aximo

max(max(N Ni1), max(N Ni2), max(N Ni3)),

onde os ´ındices i, na variável N Nij, variam dentro do intervalo inteiro [1, 3]. N N1j corresponde à rede com os 30 nós na camada escondida, a N N2j à rede com os 35 nós, e finalmente a N N3j àquela com 40 nós na camada escondida. Os ´ındices j também variam no intervalo inteiro [1, 3], porém estes indicam cada uma das três classes de estrutura secundária: 1 para coil, 2 para fita e 3 para hélice.

3.4 RESULTADOS

O método seven-fold cross validation foi executado para os bancos de dados RS126 e CB396, sendo que a divisão aplicada ao conjunto RS126 foi a mesma reportada no trabalho de Riis e Khrog [Riis and Krogh, 1996]. Os resultados para cada experiência são relatados nesta se¸cão. Os percentuais reportados referem-se ao desempenho médio Q3para os res´ıduos. Os valores Q3mais significativos, obtidos com os diferentes conjuntos de testes experimentados, são oportunamente citados.

Dentre os perfis utilizados como entrada os que forneceram os melhores resultados, tanto para cada rede individualmente quanto para a combina¸cão delas, foram os perfis rotulados PSI Blast (gerados com os parâmetros default ). Os experimentos realizados com os perfis PSI Freq tiveram o desempenho mais baixo (cerca de 3 pontos percentuais inferior aos demais), enquanto os realizados com os perfis PSI Blast CS tiveram um desempenho próximo ao PSI Blast (apenas 1 ponto percentual inferior). Este desempenho era esperado, uma vez que os perfis PSI Blast são mais informativos.

3.4 resultados 51

E oportuno observar que a obten¸cão dos perfis sobre o banco de dados não redundante de prote´ınas do NCBI, o qual engloba seqüências de quatro outros bancos (Non-redundant GenBank CDS translations, PDB, SwissProt e PIR), corroborou para a defini¸cão de perfis mais significativos, os quais colaboraram para um melhor desempenho do preditor.

Nos experimentos realizados com os perfis PSI Blast a rede que apresentou o melhor desempenho individual foi a Rede 1 (30 nós na camada escondida), alcan¸cando uma taxa de acerto média de 71,7% para o banco RS126 e de 74,5% para o CB396. Contudo, as demais redes tiveram um desempenho bastante próximo.

Ao combinarmos as redes com as regras Vota¸cão, Média, Produto, Máximo e M´ınimo foi observada uma melhora no desempenho. O desempenho alcan¸cado para cada regra de combina¸cão bem como para as redes individualmente são exibidas nas Figuras 3.5 e 3.6. Nestas, Rede1 é o rótulo para a rede com 30 nós na camada escondida, Rede2 é o rótulo da rede com 35 nós naquela camada e Rede3 rotula a rede com 40 nós na mesma camada escondida. Além do desempenho de cada rede individualmente, são exibidos os resultados com cada regra de combina¸cão utilizada para compor as sa´ıdas das redes. Os pontos indicam o desempenho médio em cada caso com a precisão Q3 do classificador em questão e o intervalo centrado em cada um desses pontos denotam as taxas de varia¸cão da medida Q3 expressas através do desvio padrão.

Rede1 Rede2 Rede3 Produto Média Votação Mínimo Máximo 65

70 75 80

Avaliação de Performance usando o RS126

Performance Media (%)

Figura 3.5. Resultados obtidos com o banco RS126, utilizando perfis PSI Blast.

Em ambos os bancos as regras do Produto e da M´edia forneceram os melhores desempenhos, cujos valores diferem em apenas 0,05 ponto percentual. A maior taxa de acerto

3.4 resultados 52

Rede1 Rede2 Rede3 Produto Média Votação Mínimo Máximo 65

70 75 80 85

Avaliação de Performance usando o CB396

Performance Media (%)

Figura 3.6.Resultados obtidos com o banco CB396, utilizando perfis PSI Blast.

foi obtida com a regra do Produto: 74,1% para o banco RS126 e 75,9% com o CB396. Os resultados apresentaram pouca variabilidade que pode ser demonstrada pelo baixo desvio padrão calculado para ambos os experimentos: menos de 1,5 pontos percentuais para o RS126 e próximo de 2 pontos percentuais para o CB396. A regra de Vota¸cão, comumente utilizada por preditores de estrutura secundária, não obteve um desempenho tão bom quanto a do Produto e da Média em nosso experimento. Tal fato pode ser atribu´ıdo ao pequeno número de classificadores envolvidos, porém, como o nosso objetivo era desenvolver um modelo mais simples foi prefer´ıvel manter as três redes apenas. Ne- nhuma utiliza¸cão prévia da regra do Produto foi encontrada em métodos de predi¸cão de estrutura secundária, sendo a mesma mais um ponto diferencial na abordagem proposta.

E importante enfatizar que a combina¸cão de redes aumentou a taxa de acerto para os dois bancos utilizados. Tal ganho deve-se ao fato de cada rede olhar para um m´ınimo local diferente, uma condi¸cão necessária para que a técnica seja aplicada com sucesso. Para o banco RS126 o ganho foi próximo a 3 pontos percentuais e no CB396 foi cerca de 2 pontos percentuais, justificando, portanto, o esfor¸co computacional empregado na combina¸cão.

Os melhores resultados encontrados na literatura para redes avaliadas sobre os bancos de dados RS126 e CB396 são mostrados na Tabela 3.1. Os resultados obtidos com a arquitetura simples proposta neste trabalho é comparável ao melhor resultado reportado

No documento Análise de estruturas de proteínas (páginas 61-69)