• Nenhum resultado encontrado

O Preditor de Estrutura Secund´aria NNPSS

No documento Análise de estruturas de proteínas (páginas 61-69)

medida de forma apropriada entre as prote´ınas representadas pelas seq¨uˆencias utiliza- das para teste e treinamento. Cuff e Barton refor¸cam a importˆancia da utiliza¸c˜ao de bancos de dados com esta caracter´ıstica como uma forma de evitar desempenhos que n˜ao correspondem `a realidade. No banco de dados desenvolvido por eles, ao inv´es do percentual de identidade utilizado como crit´erio de sele¸c˜ao no RS126, as seq¨uˆencias s˜ao escolhidas por meio de um algoritmo de compara¸c˜ao bastante preciso e de an´alise de clusters aplicados ao banco de dados 3Dee, um banco de dados contendo defini¸c˜oes es- truturais de dom´ınios [Siddiqui et al., 2001]. Segmentos com multi-dom´ınios, seq¨uˆencias com resolu¸c˜ao de cristalografia por raios X menor ou igual a 2,5˚A, bem como seq¨uˆencias similares `aquelas presentes no RS126, s˜ao removidas. As 396 seq¨uˆencias resultantes deste processo comp˜oem o CB396. Nesta fase foi aplicado o m´etodo cross validation e uma das medidas de desempenho reportadas foi o Q3.

Dos quatro preditores avaliados por Cuff e Barton o que apresentou melhor desempe- nho individual foi o PHD, que alcan¸cou um desempenho Q3 de 73,5% para o banco de dados RS126 e 71,9% quando avaliado sobre o banco CB396. Por´em os melhores ´ındices foram alcan¸cados com o preditor CONSENSUS, posteriormente chamado de JNet, resul- tante da combina¸c˜ao dos m´etodos avaliados. A taxa de acerto obtida com este foi de 74,8% para o RS126 e 72,9% para o banco CB396.

3.3 O PREDITOR DE ESTRUTURA SECUND ´ARIA NNPSS

Podemos observar que, para obter melhores resultados, os recursos computacionais requeridos s˜ao cada vez maiores. Al´em da complexidade intr´ınseca a cada classificador in- dividualmente, a maioria dos preditores combina algo como oito, onze, doze, ou mesmo oi- tocentas predi¸c˜oes [Baldi et al., 1999], [Pollastri et al., 2002], [Rost and Sander, 1993b], [Petersen et al., 2000], conforme explanado anteriormente. Propostas de simplifica¸c˜ao de arquitetura foram apresentadas recentemente [Lin et al., 2005], por´em os m´etodos per- dem em eficiˆencia. Tendo como base o estudo relatado na se¸c˜ao precedente, desenvolve- mos um preditor de estrutura secund´aria, o GMC [Guimar˜aes et al., 2003], [Guimar˜aes et al., 2002], atualmente designado por NNPSS (Neural Network based Pro- tein Secondary Structure Predictor). O objetivo foi obter um preditor que fosse ao mesmo tempo simples, em termos de arquitetura, visando diminuir o n´umero de classificadores envolvidos, e eficiente, buscando alcan¸car resultados no m´ınimo compar´aveis aos m´etodos desenvolvidos previamente, avaliados sobre os bancos de dados RS126 e CB396.

Os desempenhos reportados no estudo comparativo realizado por Cuff e Barton [Cuff and Barton, 1999] foram utilizados como referˆencia para avaliar o m´etodo aqui apre-

3.3 o preditor de estrutura secund´aria nnpss 46

sentado.

O preditor consiste de trˆes redes neurais treinadas com uma varia¸c˜ao eficiente do algoritmo backpropagation, o RPROP, e combinadas por diferentes regras. O desempenho m´edio Q3 alcan¸cado para o RS126 foi de 74,1%, e de 75,9% para o CB396. Os resultados apresentaram pouca variabilidade, que pode ser demonstrada pelo baixo desvio padr˜ao calculado para ambos os experimentos: menos de 1,5 pontos percentuais para o RS126 e pr´oximo de 2 pontos percentuais para o CB396. Ao compararmos com os resultados reportados no trabalho de Cuff e Barton [Cuff and Barton, 1999], o ´ındice alcan¸cado pelo NNPSS com o RS126 foi superado apenas pelo CONSENSUS que atingiu 74,8%. O percentual obtido com o CB396 por sua vez ´e o melhor resultado publicado para este banco de dados superando em trˆes pontos percentuais o desempenho obtido com o CONSENSUS.

A metodogia aplicada no desenvolvimento do preditor NNPSS ´e descrita nas subse¸c˜oes seguintes, juntamente com a an´alise dos resultados com ele obtidos.

3.3.1 Dados Utilizados

A fim de obter resultados compar´aveis a outros preditores, os experimentos foram realizados com dois bancos de dados estabelecidos:

i) RS126, desenvolvido por Rost e Sander [Rost and Sander, 1994], bastante utilizado para testes de preditores, e,

ii) CB396, desenvolvido por Cuff e Barton [Cuff and Barton, 1999], em um trabalho que cont´em uma compara¸c˜ao com v´arios outros m´etodos e cujas seq¨uˆencias foram es- colhidas atrav´es de um procedimento mais seletivo, eliminando inclusive seq¨uˆencias similares `as presentes no RS126.

Em ambos os bancos de dados a atribui¸c˜ao de tipos de estrutura secund´aria foi feita pelo programa DSSP [Kabsch and Sander, 1983]. Neste algoritmo, os oito estados retor- nados s˜ao convertidos a trˆes classes na seguinte maneira: a h´elices α e 310 est˜ao na classe h´elice (H), as fitas β e β bridge s˜ao classificados como fita (representados por E) e os estados restantes, a saber, h´elice π, extended strand, isolated β bridge, turn, bend e rest, s˜ao colocados na classe coil (C).

´

E importante observar que definir elementos de estrutura secund´aria a partir das coor- denadas atˆomicas ´e um processo inexato. Isto se deve a diferen¸cas na defini¸c˜ao de estru- tura secund´aria e mesmo a erros e inconsistˆencias na obten¸c˜ao experimental da estrutura

3.3 o preditor de estrutura secund´aria nnpss 47

[Cuff and Barton, 1999]. O m´etodo DSSP foi escolhido por ser a defini¸c˜ao mais aceita e, conseq¨uentemente, mais utilizada na literatura. Exemplos de outros m´etodos de defini¸c˜ao de estrutura secund´aria dispon´ıveis atualmente s˜ao DEFINE [Richards and Kundrot, 1988] e STRIDE [Frishman and Argos, 1995].

Para treinamento e teste das redes, no lugar das seq¨uˆencias foram utilizados perfis PSI Blast [Altschul et al., 1997], obtidos como parte do processo de busca sobre o banco n˜ao redundante de prote´ınas do NCBI [Benson et al., 2002]. Em outras palavras, os perfis PSI Blast foram utilizados para codificar os amino´acidos das seq¨uˆencias informadas `as redes. Estes perfis s˜ao representados por matrizes (position-specific scoring matrices), cada uma com N × 20 elementos, onde N ´e o tamanho da seq¨uˆencia de entrada. Os 20 amino´acidos que comp˜oem o alfabeto onde s˜ao definidas as seq¨uˆencias de prote´ınas s˜ao dispostos nas colunas, sendo os res´ıduos que comp˜oem a seq¨uˆencia usados para rotular as linhas.

Os trˆes tipos de perfis usados como dados de entrada foram obtidos por dois tipos dos processos. Num deles, para cada seq¨uˆencia na base de dados CB396 ou RS126, o programa PSI Blast foi executado com parˆametros default sobre o banco de dados de seq¨uˆencias n˜ao redundantes de prote´ınas do NCBI [Benson et al., 2002]. Os processos foram parados ap´os trˆes itera¸c˜oes, gerando o perfil PSI Blast (conjunto rotulado PSI Blast) e o perfil de Freq¨uˆencia (conjunto rotulado PSI Freq). O outro conjunto de dados de entrada (rotu- lado PSI Blast CS) foi gerado por um processo similar ao descrito anteriormente, por´em configurando os filtros COIL e SEG da ferramenta. Desta forma, as regi˜oes coiled-coil e as de baixa complexidade foram marcadas. Os melhores resultados foram obtidos com o conjunto PSI Blast, sendo estes reportados no atual cap´ıtulo. Os resultados obtidos com os demais perfis n˜ao foram significativos, por´em, podem ser consultados no Apˆendice A. Treze linhas adjacentes de cada matriz gerada pelo programa PSI Blast, representando uma janela de tamanho 13 nas seq¨uˆencias, foram usadas como entrada para as trˆes redes neurais do preditor, sendo a predi¸c˜ao realizada em rela¸c˜ao ao res´ıduo central da janela.

3.3.2 M´etodo de Avalia¸c˜ao

No experimento aqui descrito foi utilizado o m´etodo de avalia¸c˜ao seven-fold cross- validation. O banco RS126 foi particionado em sete subconjuntos da forma relatada em [Riis and Krogh, 1996]. O banco CB396 foi dividido aleatoriamente em sete partes de tamanhos aproximadamente iguais. Os resultados relatados aqui se referem `a m´edia de desempenho dos sete diferentes conjuntos de teste, com os desvios padr˜ao corresponden- tes.

3.3 o preditor de estrutura secund´aria nnpss 48

O desempenho da rede ´e avaliado atrav´es da medida Q3 [Schulz and Schirmer, 1979] (Equa¸c˜ao .), a qual fornece a percentagem de res´ıduos classificados corretamente.

3.3.3 Algoritmo de Treinamento

Um dos pontos diferenciais do preditor aqui apresentado foi o algoritmo de treina- mento escolhido. Enquanto a grande maioria dos classificadores dispon´ıveis hoje em dia utiliza o tradicional backpropagation para treinamento das redes, na atual abor- dagem uma varia¸c˜ao econˆomica do backpropagation ´e utilizada, o algoritmo RPROP [Riedmiller and Braun, 1993].

Desenvolvido por Riedmiller e Braun, o RPROP (Resilient PROPagation) tem como princ´ıpio b´asico buscar eliminar a influˆencia prejudicial do tamanho do vetor da derivada parcial (∂E

∂w) no processo de atualiza¸c˜ao dos pesos. Neste algoritmo apenas o sinal da derivada ´e considerado, ignorando o valor do gradiente descendente. Os pesos s˜ao atua- lizados da seguinte forma: se o valor da derivada parcial for positivo (indicando fun¸c˜ao de erro crescente), ser´a subtra´ıdo do peso um determinado valor u; caso a derivada seja negativa (erro decrescente), o valor u ´e adicionado ao peso. O valor u ´e calculado com base no sentido (isto ´e, no sinal) do gradiente. Se o gradiente atual estiver no mesmo sentido do gradiente precedente, ser´a somado um fator a u. Se os sentidos s˜ao opostos, o fator ´e subtra´ıdo.

Especificamente, os valores adotados para os parˆametros foram: a inicializa¸c˜ao dos pesos com o valor 0,07, sendo 50 o valor m´aximo que estes podem atingir; os pesos podem ainda ser incrementados de um fator de 1,2 ou decrementados de um fator de 0,5.

Utilizando o sinal da derivada ao inv´es de seu valor, como ocorre no backpropagation, o RPROP adquire algumas vantagens, tais como a redu¸c˜ao do n´umero de ´epocas necess´arias para o treinamento bem como do esfor¸co computacional, al´em da robustez em termos da adapta¸c˜ao de seus parˆametros iniciais.

3.3.4 Combina¸c˜ao de Classificadores

A combina¸c˜ao de redes neurais objetiva melhorar a classifica¸c˜ao, procurando tirar vantagem de cada classificador individualmente. Esta t´ecnica tem contribu´ıdo para melhorar o desempenho dos preditores de estrutura secund´aria [Pollastri et al., 2002], [Petersen et al., 2000], [Cuff and Barton, 1999].

Uma condi¸c˜ao necess´aria para que a aproxima¸c˜ao seja funcional ´e que cada classifi- cador na combina¸c˜ao deve observar um m´ınimo local diferente. Para obter este requisito

3.3 o preditor de estrutura secund´aria nnpss 49

existem algumas estrat´egias, tais como, iniciar os pesos de forma diferenciada para cada uma das redes envolvidas, ou utilizar algoritmos de aprendizagem diferentes em cada uma delas, ou mesmo modificar a topologia da rede neural. Nas experiˆencias relatadas aqui a ´

ultima estrat´egia foi adotada.

Trˆes redes neurais completamente conectadas com uma camada escondida foram usa- das. Elas foram treinadas com o mesmo conjunto de dados. O diferencial entre as redes est´a no fato de que cada delas tem um n´umero distinto de n´os na camada intermedi´aria: 30, 35 e 40 n´os. Os n´umeros de n´os foram determinados ap´os uma s´erie experiˆencias pre- liminares. A camada da sa´ıda tem o mesmo n´umero de n´os, 3, para todas as redes, um para cada classe: h´elice, fita e coil (Figura 3.4), as quais s˜ao codificadas ortogonalmente.

Rede Neural 1 Rede Neural 2 Rede Neural 3 Regra de Combinação Dados Classe

Figura 3.4.As Redes 1, 2, e 3 possuem 30, 35 e 40 n´os na camada escondida, respectivamente.

Embora a Vota¸c˜ao seja a regra de combina¸c˜ao mais utilizada por preditores de estru- tura secund´aria, mais quatro regras foram experimentadas al´em dela: Produto, M´edia, M´aximo e M´ınimo. Na regra da Vota¸c˜ao a classe de sa´ıda escolhida entre as trˆes redes ´e aquela que ocorre com maior freq¨uˆencia, isto ´e, a mais votada. Para as demais re- gras foram utilizadas sa´ıdas normalizadas atrav´es da fun¸c˜ao Softmax [Duda et al., 2001], [Bridle, 2000]. A fun¸c˜ao de ativa¸c˜ao Softmax imp˜oe que as sa´ıdas das redes recaiam entre 0 e 1 e que sua soma seja 1. Denotando o valor de entrada dado pela rede para cada unidade de sa´ıda por qi, i = 1,· · · , c, onde c ´e o n´umero de classes, a sa´ıda pi dada pela fun¸c˜ao softmax para cada qi ´e dada por:

pi = eqi Pc

j=1eqj

(.)

As regras do Produto e da M´edia s˜ao baseadas nas opera¸c˜oes que as nomeiam. O produto (m´edia) ´e aplicado nas sa´ıdas correspondentes de cada rede, e a classe escolhida ´e aquela que alcan¸ca o valor mais elevado. A regra do M´ınimo procede da seguinte maneira: para uma determinada classe o menor valor reportado por cada uma das redes ´e pego. A classe escolhida ser´a aquela que apresentar o maior valor entre os menores.

3.4 resultados 50

Finalmente, na regra do M´aximo, o valor mais elevado entre os maiores reportados par cada rede ´e adotado [Tresp, 2001]. A equa¸c˜ao de cada regra da combina¸c˜ao ´e mostrada a seguir:

• Produto

max(Π3i=1N Ni1, Π3i=1N Ni2, Π3i=1N Ni3)

• M´edia max(1/3 3 X i=1 N Ni1, 1/3 3 X i=1 N Ni2, 1/3 3 X i=1 N Ni3) • M´ınimo

max(min(N Ni1), min(N Ni2), min(N Ni3))

• M´aximo

max(max(N Ni1), max(N Ni2), max(N Ni3)),

onde os ´ındices i, na vari´avel N Nij, variam dentro do intervalo inteiro [1, 3]. N N1j corresponde `a rede com os 30 n´os na camada escondida, a N N2j `a rede com os 35 n´os, e finalmente a N N3j `aquela com 40 n´os na camada escondida. Os ´ındices j tamb´em variam no intervalo inteiro [1, 3], por´em estes indicam cada uma das trˆes classes de estrutura secund´aria: 1 para coil, 2 para fita e 3 para h´elice.

3.4 RESULTADOS

O m´etodo seven-fold cross validation foi executado para os bancos de dados RS126 e CB396, sendo que a divis˜ao aplicada ao conjunto RS126 foi a mesma reportada no trabalho de Riis e Khrog [Riis and Krogh, 1996]. Os resultados para cada experiˆencia s˜ao relatados nesta se¸c˜ao. Os percentuais reportados referem-se ao desempenho m´edio Q3para os res´ıduos. Os valores Q3mais significativos, obtidos com os diferentes conjuntos de testes experimentados, s˜ao oportunamente citados.

Dentre os perfis utilizados como entrada os que forneceram os melhores resultados, tanto para cada rede individualmente quanto para a combina¸c˜ao delas, foram os perfis rotulados PSI Blast (gerados com os parˆametros default ). Os experimentos realizados com os perfis PSI Freq tiveram o desempenho mais baixo (cerca de 3 pontos percentuais inferior aos demais), enquanto os realizados com os perfis PSI Blast CS tiveram um desempenho pr´oximo ao PSI Blast (apenas 1 ponto percentual inferior). Este desempenho era esperado, uma vez que os perfis PSI Blast s˜ao mais informativos.

3.4 resultados 51

´

E oportuno observar que a obten¸c˜ao dos perfis sobre o banco de dados n˜ao redundante de prote´ınas do NCBI, o qual engloba seq¨uˆencias de quatro outros bancos (Non-redundant GenBank CDS translations, PDB, SwissProt e PIR), corroborou para a defini¸c˜ao de perfis mais significativos, os quais colaboraram para um melhor desempenho do preditor.

Nos experimentos realizados com os perfis PSI Blast a rede que apresentou o melhor desempenho individual foi a Rede 1 (30 n´os na camada escondida), alcan¸cando uma taxa de acerto m´edia de 71,7% para o banco RS126 e de 74,5% para o CB396. Contudo, as demais redes tiveram um desempenho bastante pr´oximo.

Ao combinarmos as redes com as regras Vota¸c˜ao, M´edia, Produto, M´aximo e M´ınimo foi observada uma melhora no desempenho. O desempenho alcan¸cado para cada regra de combina¸c˜ao bem como para as redes individualmente s˜ao exibidas nas Figuras 3.5 e 3.6. Nestas, Rede1 ´e o r´otulo para a rede com 30 n´os na camada escondida, Rede2 ´e o r´otulo da rede com 35 n´os naquela camada e Rede3 rotula a rede com 40 n´os na mesma camada escondida. Al´em do desempenho de cada rede individualmente, s˜ao exibidos os resultados com cada regra de combina¸c˜ao utilizada para compor as sa´ıdas das redes. Os pontos indicam o desempenho m´edio em cada caso com a precis˜ao Q3 do classificador em quest˜ao e o intervalo centrado em cada um desses pontos denotam as taxas de varia¸c˜ao da medida Q3 expressas atrav´es do desvio padr˜ao.

Rede1 Rede2 Rede3 Produto Média Votação Mínimo Máximo 65

70 75 80

Avaliação de Performance usando o RS126

Performance Media (%)

Figura 3.5. Resultados obtidos com o banco RS126, utilizando perfis PSI Blast.

Em ambos os bancos as regras do Produto e da M´edia forneceram os melhores desem- penhos, cujos valores diferem em apenas 0,05 ponto percentual. A maior taxa de acerto

3.4 resultados 52

Rede1 Rede2 Rede3 Produto Média Votação Mínimo Máximo 65

70 75 80 85

Avaliação de Performance usando o CB396

Performance Media (%)

Figura 3.6.Resultados obtidos com o banco CB396, utilizando perfis PSI Blast.

foi obtida com a regra do Produto: 74,1% para o banco RS126 e 75,9% com o CB396. Os resultados apresentaram pouca variabilidade que pode ser demonstrada pelo baixo desvio padr˜ao calculado para ambos os experimentos: menos de 1,5 pontos percentuais para o RS126 e pr´oximo de 2 pontos percentuais para o CB396. A regra de Vota¸c˜ao, comumente utilizada por preditores de estrutura secund´aria, n˜ao obteve um desempenho t˜ao bom quanto a do Produto e da M´edia em nosso experimento. Tal fato pode ser atribu´ıdo ao pequeno n´umero de classificadores envolvidos, por´em, como o nosso objetivo era desenvolver um modelo mais simples foi prefer´ıvel manter as trˆes redes apenas. Ne- nhuma utiliza¸c˜ao pr´evia da regra do Produto foi encontrada em m´etodos de predi¸c˜ao de estrutura secund´aria, sendo a mesma mais um ponto diferencial na abordagem proposta.

´

E importante enfatizar que a combina¸c˜ao de redes aumentou a taxa de acerto para os dois bancos utilizados. Tal ganho deve-se ao fato de cada rede olhar para um m´ınimo local diferente, uma condi¸c˜ao necess´aria para que a t´ecnica seja aplicada com sucesso. Para o banco RS126 o ganho foi pr´oximo a 3 pontos percentuais e no CB396 foi cerca de 2 pontos percentuais, justificando, portanto, o esfor¸co computacional empregado na combina¸c˜ao.

Os melhores resultados encontrados na literatura para redes avaliadas sobre os ban- cos de dados RS126 e CB396 s˜ao mostrados na Tabela 3.1. Os resultados obtidos com a arquitetura simples proposta neste trabalho ´e compar´avel ao melhor resultado reportado

No documento Análise de estruturas de proteínas (páginas 61-69)

Documentos relacionados