Métodos de predição do EES - REVISÃO BIBLIOGRÁFICA

2. REVISÃO BIBLIOGRÁFICA

2.8 Métodos de predição do EES

A predição da estrutura secundária usa o conhecimento da estrutura primária (sequência de aminoácidos) de uma proteína. O processo de predição consiste em atribuir os EES (α-hélice, folha-β, turn e random coil) a regiões da sequência de aminoácidos. A qualidade da predição é calculada comparando-se seu resultado com os resultados do algoritmo DSSP aplicado a uma proteína cristalizada. Alguns métodos usados são o de Chou- Fasman, método de GOR, uso de redes neurais e máquina de vetor de suporte (SVM). Atualmente, os melhores métodos de predição da estrutura secundária conseguem em torno de 92,1% de acurácia (NANNI, BRAHNAM e LUMINI, 2014).

2.8.1 Método de Chou-Fasman

O método de Chou-Fasman usado para predizer os EES baseia-se na propensidade, que é a medida da probabilidade de cada aminoácido estar presente em cada tipo de EES, conforme vemos na Tabela 3 (CHOU e FASMAN, 1974).

Propensidade α-hélice Folha-β Turn

ALA VAL GLY

LEU LEU SER

VAL ALA LYS

LYS GLY ASN

GLU THR THR

SER ILE ALA

THR SER LEU

GLY LYS PRO

GLN TYR ASP

ASP GLN TYR

ILE PHE VAL

ASN ASN GLU

HIS ASP ARG

PHE ARG ILE

ARG CYS GLN

TYR HIS HIS

PRO PRO PHE

TRP TRP CYS

CYS MET TRP

MET GLU MET

Tabela 3. Tabela de Propensidade dos resíduos de aminoácidos (CHOU e FASMAN, 1974)

O algoritmo utilizado neste método procura linearmente através da sequência de aminoácidos as regiões de nucleação das α-hélices e folhas-β, e depois estende essa região por uma janela de quatro resíduos de aminoácidos com probabilidade menor que 1. Essa janela considera que de quatro a seis aminoácidos contíguos são suficientes para nuclear uma α- hélice, e de três a cinco aminoácidos são suficientes para nuclear uma folha-β. O limiar da probabilidade é de 1,03 para α-hélice e 1,00 para a folha-β. Como muitos resíduos de aminoácidos que aparecem nas regiões de α-hélice e folha-β também aparecem nas regiões de

turn, o turn é predito apenas se a sua probabilidade for maior que a probabilidade da

existência de uma α-hélice ou folha-β, e a probabilidade deste turn for maior que um determinado limiar. A probabilidade do turn é determinada pela Eq. 5.

𝑝(𝑡) = 𝑝_𝑡(𝑗) × 𝑝_𝑡(𝑗 + 1) × 𝑝_𝑡(𝑗 + 2) × 𝑝_𝑡(𝑗 + 3) (5)

onde 𝑗 é a posição do resíduo de aminoácido em uma janela de quatro resíduos. Se 𝑝(𝑡) exceder o valor arbitrário de 7,5x10-3, a média de 𝑝_𝑡(𝑗) for superior a 1, e 𝑝(𝑡) exceder a probabilidade da existência da α-hélice ou folha-β, então ali está predita a existência de um

turn. O método de Chou-Fasman tem uma acurácia de quase 70% (CHEN, GU e HUANG,

2006).

2.8.2 Método GOR

O método Garnier-Osguthorpe-Robson (GOR) é baseado na teoria da informação para a predição das estruturas secundárias. Semelhante ao método de Chou-Fasman, ele leva em conta a tendência de aminoácidos individuais para formar uma determinada estrutura secundária em particular, e também a probabilidade condicional dos aminoácidos para formarem uma estrutura secundária, dado que seus vizinhos imediatos já formaram essa estrutura (GARNIER, GIBRAT e ROBSON, 1996). O método GOR é, portanto, uma análise Bayseana (GARNIER, OSGUTHORPE e ROBSON, 1978).

O método GOR analisa a sequência de aminoácidos para prever a presença do EES considerando uma janela de 17 resíduos de aminoácidos. Uma matriz 17×20 é usada para pontuar a probabilidade da presença de cada aminoácido em cada uma das 17 posições da sequência. Esse método originalmente apresentou uma acurácia de 73,5% (XIA, DOU, et

al., 2011).

2.8.3 Redes neurais

As redes neurais usam um conjunto de dados das estruturas proteicas conhecidas para treinar a rede neural (por esse motivo o método é chamado de aprendizagem de máquina, porque a rede “aprende” a identificar um padrão nos dados de teste). A Fig. 20 mostra a topologia de uma rede neural. Esse método tem uma acurácia em torno de 78% (DONGARDIVE e ABRAHAM, 2016).

Figura 20. Topologia de uma rede neural. Cada um dos 17 blocos mostrados na camada de entrada representa uma rede de entradas utilizada para codificar o aminoácido na posição correspondente na janela. Cada grupo consiste em 21 entradas, uma para cada possível aminoácido em cada posição, mais uma entrada nula usada quando o movimento da janela se sobrepõe ao final da sequência de aminoácidos. Assim, para uma janela na sequência de aminoácidos, 17 das 357 redes de entrada são definidos como 1 e o restante como 0. A predição é feita para o resíduo de aminoácido central da janela de entrada. Extraído e adaptado de (HOLLEY e KARPLUS, 1989).

2.8.4 Máquina de vetor de suporte

A máquina de vetor de suporte (do inglês “Support Vector Machine”, SVM) é baseada na teoria do aprendizado estatístico. A SVM apresenta bom desempenho e é mais fácil de programar e treinar que as redes neurais. A ideia é usá-la na classificação de um padrão binário (o resíduo de aminoácido está presente, ou não, em um EES). Para isso, faz-se um mapeamento dos vetores de entrada. Esse mapeamento pode ser de forma linear ou não linear. Então se usa uma função kernel, que será responsável por dividir esse mapa de vetores em duas classes. Há duas maneiras de se representar uma sequência de aminoácidos como um vetor de entrada:

o Sequência única: cada resíduo de aminoácido de uma proteína é representado por um vetor com 20 posições, com os valores 0 e 1. Cada resíduo de aminoácido da sequência é representado por esse vetor das pontuações de substituição.

o Múltiplas sequências alinhadas: a sequência alvo é primeiramente alinhada com as sequências extraídas de uma base de dados não redundante, a fim de determinar a família proteica a qual a sequência alvo pertence. O alinhamento pode ser expresso por uma matriz de probabilidades estimadas.

Cada sequência proteica é representada por um vetor bidimensional 𝐿 × 20, onde 𝐿 é o tamanho da sequência. Esse vetor é usado como entrada da SVM. A SVM tem uma acurácia de 80% (DOR e ZHOU, 2006).

2.8.5 Comparação entre os métodos de predição do EES

Tsilo (TSILO, 2009) fez uma comparação entre as previsões feitas por redes neurais e SVM, concluindo que a acurácia dos métodos está mais ligada aos diferentes modelos de classificadores, que aos métodos em si. Portanto, algumas das variáveis que podem influenciar nos resultados incluem os diferentes sistemas de entrada de dados, tamanho da janela considerada, os métodos de validação cruzada, os parâmetros usados para criar uma tabela de aprendizagem, e atribuições das classes estruturais.

No documento Análise do nano-ambiente propício para nucleação e manutenção dos elementos da estrutura secundária no contexto estrutural das proteínas funcionais (páginas 38-42)