• Nenhum resultado encontrado

Softwares de busca de proteínas em bancos de dados:

1. INTRODUÇÃO

1.9 Softwares de busca de proteínas em bancos de dados:

Os softwares de busca mais comumente empregados para a identificação de proteínas em bancos de dados a partir de dados de MS são

o Sequest (23) e o Mascot (www.matrixscience.com).(24) Ambos os programas

correlacionam espectros de massas de fragmentação (não interpretados) de peptídeos com sequências de aminoácios de proteínas registradas em

bancos de dados.(69,70) Além disso, esses softwares também têm a

capacidade de usar sequências de nucleotídeos para fazer tal correlação. Para tal, eles primeiramente simulam as seqüências primária das proteínas correspondentes àquelas seqüências de nucleotídeos encontradas nos bancos de genes, utilizando-se do código genético universal; posteriormente eles simulam a fragmentação destas seqüências primárias. De uma forma geral, estes programas têm como objetivo encontrar a sequência aminoácidos, em um determinado banco de dados, que melhor descreve os íons fragmentos encontrados em um espectro. As sequências “candidatas” são procuradas nos bancos de dados de acordo com a massa molecular do peptídeo (informação adquirida na etapa do PMF) e com o espectro de fragmentação (MS/MS) obtido para cada peptídeo.

No Sequest, uma técnica de processamento do sinal chamada autocorrelação é usada a fim de determinar matematicamente a sobreposição entre o espectro teórico, derivado de cada sequência obtida no banco de dados em questão, e o espectro experimentalmente obtido. O resultado de tal sobreposição é expressa quantitativamente em termos de

diversos fatores, tais como: estado de carga do peptídeo e tamanho do banco de dados que está sendo usado para a busca. Assim, a avaliação de

um segundo score, classificado como ∆Cn faz-se necessário para que a

confiabilidade do resultado obtido seja aumentada. Esse parâmetro é

definido como sendo a diferença entre os valores de Xcorr obtidos para a

sequência de aminoácidos que obteve o maior Xcorr e a sequência

subsequente. Na literatura, diferentes critérios são usados para classificar uma determinação como satifatória ou não. De um forma geral, estes valores

são: Xcorr > 3,75 para peptídeos com carga +3; Xcorr > 2,2 para peptídeos

com carga +2 e Xcorr > 1,9 para peptídeos com carga +1. Em todos os casos

descritos, ∆Cn > 0,10 é exigido para que a determinação seja considerada

suficientemente confiável.(71,72) O Sequest tem se mostrado uma ferramenta

bastante robusta, inclusive quando espectros com baixa relação sinal ruído

são submetidos à análise.(23,71)

O Mascot também envolve o cálculo de fragmentos teoricamente preditos para todos os peptídeos de um banco de dados de acordo com a massa do íon precursor, previamente determinada. Os valores de m/z dos fragmentos preditos são comparados com os fragmentos experimentais sendo que neste caso a comparação inicia-se com base nos íons -b e -y

mais intensos (vide ítem 1.10). A probabilidade de que o valor de m/z de um

fragmento teoricamente obtido coincidir, de maneira randômica com o valor de m/z de um fragmento obtido experimentalmente é calculado e expresso como sendo o negativo do logaritmo desse número (score). Assim, quanto maior for o valor obtido, menor é a probabilidade de que este resultado seja

submetida um valor limite (dependendo das condições usadas para a busca) à partir do qual o valor obtido indica que a determinação possue

probabilidade inferior a 5% de ser um evento randômico.(73)

A Figura 22 mostra um esquema detalhado da sistemática de busca empregado pelos principais softwares de busca de proteínas em bancos de dados (Mascot e Sequest).

Uma vez entendida a sistemática aplicada pelos softwares para a identificação de proteínas em bancos de dados usando dados de espectrometria de massas, faz-se extremamente necessário e de suma importância o completo entendimento de como ocorre a fragmentação dos peptídeos. Além disso, a interpretação manual de espectros de MS/MS é recomendada em todos os casos e indispensável em algumas situações. Por exemplo, quando o genoma de uma determinada espécie ainda não está completamente sequenciado ou disponível é necessário derivar a sequência primária de aminoácidos de um determinado peptídeo baseado somente nos dados obtidos por espectrometria de massas, isto é, sem recorrer a banco

MS 9 PMF (MM) 9 MS/MS (sequência de aminoácidos) B anco d e dados d e proteínas peptídeo em estudo (Sw issPr o t, B C B I, M S DB , … )

Digestão teórica (in silico) com a enzima escolhida

Levando em consideração o erro da medida, a proteína do banco de dados possue algum peptídeo com a mesma MM do peptídeo em estudo?

1a.Proteína do

banco de dados

Peptídeos formados (teoricamente)

 Se a resposta for NÃO, outra proteína deve ser avaliada

 Se a resposta for SIM, os espectros de MS/MS devem ser comparados

9Nesse exemplo, existe um peptídeo com MM coincidente (*)

* MS 9 PMF (MM) 9 MS/MS (sequência de aminoácidos) B anco d e dados d e proteínas peptídeo em estudo (Sw issPr o t, B C B I, M S DB , … )

Digestão teórica (in silico) com a enzima escolhida

Levando em consideração o erro da medida, a proteína do banco de dados possue algum peptídeo com a mesma MM do peptídeo em estudo?

1a.Proteína do

banco de dados

Peptídeos formados (teoricamente)

 Se a resposta for NÃO, outra proteína deve ser avaliada

 Se a resposta for SIM, os espectros de MS/MS devem ser comparados

9Nesse exemplo, existe um peptídeo com MM coincidente (*)

* m/z % Experimental m/z % Teórico

Correlação entre os espectros

Cálculo dos “scores”

MASCOT

Score = - log P

onde P é a probabilidade de que um “ match” ocorra ao acaso

espectros MS/MS

SEQUEST

Xcorr = parâmetro de cross correlação

∆Cn = indica a diferença entre o primeiro e os demais “matches”

m/z % Experimental m/z % Teórico

Correlação entre os espectros

Cálculo dos “scores”

MASCOT

Score = - log P

onde P é a probabilidade de que um “ match” ocorra ao acaso

espectros MS/MS

SEQUEST

Xcorr = parâmetro de cross correlação

∆Cn = indica a diferença entre o primeiro e os demais “matches”

Figura 22. Esquema ilustrativo da sistemática de busca de proteínas em

bancos de dados empregadas pelos softwares de busca Mascot e Sequest.

Documentos relacionados