• Nenhum resultado encontrado

2. REVISÃO BIBLIOGRÁFICA

2.9 Softwares usados para previsão do EES

2.9.1 RaptorX

O RaptorX4 usa o método de aprendizado estatístico para projetar uma nova função de pontuação, usada para medir a melhor compatibilidade da sequência alvo com uma estrutura molde. O RaptorX usa o algoritmo NEFF para medir a quantidade de informação contida no perfil da sequência de uma proteína. O NEFF pode ser interpretado como o número efetivo de estruturas homólogas não redundantes para uma determinada proteína. Seu valor varia de 1 a 20, o que representa o número de substituições de aminoácidos em cada posição da sequência. Um perfil de sequência esparso (com um baixo valor de NEFF) geralmente leva a predições da estrutura secundária menos precisa (PENG e XU, 2011). 2.9.2 NetSurfP

O NetSurfP5 usa duas redes neurais para a predição da estrutura secundária. A primeira rede neural é treinada no perfil da sequência e estrutura secundária predita, e tem duas saídas. A saída mais alta define o tipo de EES predito. A segunda rede neural utiliza essas saídas como entrada, junto com o perfil da sequência, e é treinado para predizer a superfície relativa exposta de cada resíduo de aminoácido. A taxa de acerto desse método é de 79% (PETERSEN, PETERSEN, et al., 2009).

4http://raptorx.uchicago.edu/

2.9.3 Jpred

Jpred6 usa o algoritmo Jnet (CUFF e BARTON, 2000) para fazer a previsão da estrutura secundária através de redes neurais. A acurácia do algoritmo Jnet na predição de α- hélice, folha-β e random coil é de 81,5% (COLE, BARBER e BARTON, 2008). Disponível na web, o Jpred faz mais de 1000 previsões por semana para usuários de mais de 50 países. 2.9.4 PredictProtein

O PredictProtein7 é um servidor web para análise de sequências e predição de estruturas e função das proteínas. Para a predição da estrutura secundária ele utiliza os algoritmos PHD (ROST, 1996) e PROF (ROST, 2001). O algoritmo PROF tem uma acurácia de 76%, enquanto o algoritmo PHD apresenta uma acurácia de 71% (ROST, YACHDAV e LIU, 2004).

2.9.5 YASSPP

O YASSPP8 faz a predição da estrutura secundária através de SVM, usando um modelo baseado em cascata. O primeiro nível do modelo, chamado de modelo sequência- para-estrutura, faz a previsão para cada posição da sequência, considerando a sequência de aminoácidos em torno daquela posição. O segundo nível do modelo, chamado de modelo estrutura-para-estrutura, faz a previsão final dos EES, considerando as previsões do primeiro modelo. Cada modelo é construído usando três conjuntos de classificadores binários que utilizam a abordagem de aprendizagem um-contra-o-restante. O método empregado pelo YASSPP apresentou uma acurácia de 77,83% (KARYPIS, 2006).

2.9.6 SymPred

O SymPred9 usa um método baseado em dicionário para predição dos EES. Abordagens baseadas em dicionário são amplamente utilizadas na área de Processamento de Linguagem Natural (PLN). Esse método gera palavras sinônimas a partir da sequência de aminoácidos e sequências similares (Fig. 21). O SymPred apresenta uma acurácia de 81% (LIN, SUNG, et al., 2010).

6http://www.compbio.dundee.ac.uk/jpred/ 7 https://predictprotein.org/ 8http://glaros.dtc.umn.edu/yasspp/ 9http://www.ibi.vu.nl/programs/sympredwww/

Figura 21. Procedimento usado na extração das palavras e palavras sinônimas para uma proteína alvo. Usa-se uma janela deslizante de tamanho 4 para varrer a sequência alvo e as sequências similares encontradas com o PSI-BLAST e extrair todas as palavras. Cada palavra está associada a uma parte da informação estrutural da região da qual foi extraída. A fonte de todas as palavras extraídas é a proteína alvo, uma vez que toda informação estrutural é obtida a partir dela. Fonte: (LIN, SUNG, et al., 2010)

2.9.7 SSpro

O SSpro10 usa um conjunto de redes neurais bidirecionais recorrentes para prever a estrutura secundária. Nesta arquitetura de rede neural, a classificação é determinada por três componentes. Em primeiro lugar, existe um componente central associado aos resíduos de aminoácidos, onde ocorre a predição da estrutura secundária para a posição t da sequência. O segundo e o terceiro componente são duas redes neurais recorrentes, que “deslizam” ao longo da sequência de aminoácidos nos sentidos N-Terminal e C-Terminal, até o ponto de predição (Fig. 22). Com essa abordagem, o método apresenta uma acurácia de 78% (POLLASTRI, PRZYBYLSKI, et al., 2002).

10http://download.igb.uci.edu/sspro4.html

Figura 22. Arquitetura da rede neural bidirecional recorrente. A camada de saída (Ot) tem três unidades exponenciais normalizadas associadas com os membros de cada uma das três classes de EES (α-hélice, folha-β e turn) para o resíduo de aminoácido na posição t. As funções β, η e ϕ são implementadas pela rede neural. Fonte: (POLLASTRI, PRZYBYLSKI, et

al., 2002)

2.9.8 DSC

Discrimination of Secondary structure Class (DSC)11 é baseado na decomposição da predição da estrutura secundária em conceitos básicos e, em seguida, utiliza métodos estatísticos para combinar os conceitos de predição. Para cada posição da sequência de aminoácidos é calculada a média do potencial GOR para cada classe de estrutura secundária (α-hélice, folha-β e turn), a distância até o final da cadeia, o momento da média da hidrofobicidade para α-hélice e folha-β, a existência de inserções e deleções, e o momento da média da conservação para α-hélice e folha-β. Esses resultados são então suavizados e uma função de discriminação linear é aplicada, para fazer a predição para cada aminoácido da sequência. A quantidade de resíduos de aminoácidos preditos como α-hélice e folha-β é usada para refinar a previsão, usando uma segunda função de discriminação linear. A acurácia desse método é de 70,1% (KING e STERNBERG, 1996).

2.9.9 PROFphd

O software PROFphd12 usa redes neurais para prever a presença dos EES. Ele combina alguns fatores como parâmetros de entrada, por exemplo, a informação extraída do alinhamento das sequências proteicas, que é quanto um resíduo de aminoácido está presente em cada posição. Ele usa também o número de inserções e deleções para melhorar o desempenho do classificador, e, finalmente, a adição do conteúdo global de aminoácidos também produz uma melhoria, principalmente na predição da classe estrutural. Com essa abordagem, o método consegue uma acurácia de 88% (ROST e SANDER, 1994).

2.9.10 PSIPRED

O PSIPRED13 usa uma rede neural de dois estágios para fazer a predição dos EES. A sua acurácia é de 81,4% (BUCHAN, WARD, et al., 2010).

2.9.11 Predator

O método de predição utilizado pelo software Predator14 consiste em alinhar par- a-par a sequência alvo com todas as sequências relacionadas. Após essa primeira etapa, apenas os fragmentos alinhados com significância são considerados. A propensidade dos EES das sequências auxiliares relacionadas é combinada com aquela da sequência alvo e ponderada de acordo com o grau de similaridade. A acurácia desse método é de 75% (FRISHMAN e ARGOS, 1997).

2.9.12 Comparação entre os softwares usados para predição do EES

Comparando os softwares descritos acima, os melhores resultados foram obtidos pelo algoritmo PROFphd, com 88% de acerto. Mas, conforme explicado por Tsilo (TSILO, 2009) o resultado está mais ligado aos diferentes modelos de classificadores, que aos métodos em si.

Documentos relacionados