• Nenhum resultado encontrado

1.5 Ferramentas Auxiliares

1.5.1 Ferramentas de Benchmark

A quantidade de ferramentas para MSA, assim como a quantidade de cen´arios onde uma ou outra destas pode ser efetiva, criou a necessidade de elabora¸c˜ao de algum mecanismo sistem´atico e quantitativo de compara¸c˜ao entre elas.

Observando-se os trabalhos iniciais na ´area de alinhaments m´ultiplos de sequˆencias vˆe-se a utiliza¸c˜ao de um conjunto arbitr´ario de alinhamentos, muitas vezes selecionado a partir de bancos de estruturas que, em geral, s˜ao organizados em fam´ılias hom´ologas.

Qualquer nova ferramenta naquela ´epoca, caso fosse comparada a ferramentas pr´evias, teria que recorrer aos conjuntos de testes apresentados naqueles trabalhos. Tal metodo- logia podia levar a conclus˜oes tendenciosas ao poder desconsiderar cen´arios onde uma das ferramentas (ou ambas) tinham deficiˆencias ou m´eritos. Como apontado por Thomp- son [119], as bases de dados n˜ao forneciam informa¸c˜ao classificada e estruturada para uma avalia¸c˜ao sistem´atica dos programas de alinhamento.

Devido a este problema surgiram conjuntos de testes e ferramentas para comparar a qualidade dos alinhamentos gerados por programas de MSA, funcionando como bench-

marks. Entre as ferramentas que medem alinhamentos de cadeias proteicas, podem ser

citadas o BAliBASE [10, 118, 119], HOMSTRAD [74] e PREFAB [34]. Para alinhamento de cadeias de RNA um exemplo ´e o BRAliBASE [40].

O BAliBASE, atualmente em sua terceira vers˜ao, foi o primeiro benchmark para ali- nhamento de cadeias de prote´ınas e ´e um dos mais utilizados para este fim, sendo a escolha de v´arios surveys de compara¸c˜ao [36, 47, 101], al´em de em muitos trabalhos sobre as pr´oprias ferramentas de MSA.

As vers˜oes anteriores desta ferramenta eram baseadas em um conjunto de alinha- mentos criados manualmente e bem conhecidos. Isto limitava o conjunto no tamanho e n´umero de sequˆencias. Para contornar estes problemas, a vers˜ao 3 foi constru´ıda sobre ali- nhamentos assistidos por algoritmos computacionais que foram posteriormente refinados manualmente.

O BAliBASE 3 possui 5 grupos de referˆencia, que representam diferentes cen´arios aos quais um programa de MSA pode ser exposto. Uma descri¸c˜ao sumarizada destes grupos e sua composi¸c˜ao pode ser vista na Tabela 2.3.

Os alinhamentos do BAliBASE s˜ao disponibilizados em dois formatos: truncados ape- nas com as regi˜oes hom´ologas ou contendo as sequˆencias integrais. Al´em disto estes alinhamentos s˜ao anotados de forma a refor¸car as regi˜oes consideradas muito confi´aveis para fins de avalia¸c˜ao, que s˜ao chamados core blocks.

O BAliBASE provˆe, al´em do alinhamento “ideal”, para os cen´arios disponibilizados, duas m´etricas para an´alise quantitativa dos alinhamentos gerados por uma ferramenta de MSA em rela¸c˜ao a estes [14]:

1.5. Ferramentas Auxiliares 35

Tabela 1.3: Grupos de Referˆencia do BAliBASE 3 Referˆencia Descri¸c˜ao N´umero de

Alinhamentos

N´umero de Sequˆencias RV11 Sequˆencias equidistantes com menos de

20% de identidade entre si e sem gran- des inser¸c˜oes (> 35 res´ıduos).

38 265

RV12 Sequˆencias equidistantes que comparti- lham entre 20 e 40% de identidade entre si, sem grandes inser¸c˜oes.

45 411

RV20 Fam´ılia de sequˆencias que possuem mais de 40% de identidade, por´em com uma sequˆencia “orf˜a” com menos de 20% de identidade com qualquer outra sequˆencia.

41 1896

RV30 Alinhamento de sub-fam´ılias, onde as sequˆencias de uma mesma sub-fam´ılia compartilham mais de 40% de identi- dade entre si, mas menos de 20% de identidade com qualquer sequˆencia de outra sub-fam´ılia.

30 1882

RV40 Sequˆencias que possuem mais de 20% de identidade entre si, por´em com gran- des extens˜oes nas termina¸c˜oes N/C.

48 1317

RV50 Sequˆencias que possuem mais de 20% de identidade entre si, com grandes in- ser¸c˜oes.

16 483

Total 217 6255

• SP score (Sum of Pairs) - Indica o percentual de pares de res´ıduos alinhados corretamente no alinhamento de teste quando comparado ao mesmo par de res´ıduos no alinhamento referˆencia em rela¸c˜ao ao n´umero total de pares de res´ıduos existentes no alinhamento referˆencia. Considerando um alinhamento com N sequˆencias e M colunas, onde a i-´esima coluna do alinhamento pode ser descrita pelos res´ıduos

Ai1, Ai2. . . , AiN, podemos definir pijk como sendo o indicador de acerto em rela¸c˜ao

ao alinhamento referˆencia. Desta forma, pijk = 1 se Aij e Aik est˜ao alinhados no

coluna do alinhamento de teste pode ser descrita pela Equa¸c˜ao 1.6. Si = N X j=1 N X k=1,j6=k pijk (1.6)

Baseado nesta medida, o SP pode ser definido de acordo com a Equa¸c˜ao 1.7, onde

Mr denota o tamanho do alinhamento de referˆencia e Sri o score de sua i-´esima

coluna. SP = M P i=1 Si Mr P i=1 Sri (1.7)

• TC score (Total Columns) - Indica o percentual de colunas do alinhamento de teste perfeitamente alinhados em rela¸cao ao alinhamento referˆencia. Sendo Cio score

da i-´esima coluna do alinhamento de teste, temos Ci = 1 se todos os res´ıduos da

coluna est˜ao alinhados no alinhamento referˆencia e Ci = 0, caso contr´ario. Baseado

nisto podemos definir T C de acordo com a Equa¸c˜ao 1.8.

T C = M P i=1 Ci M (1.8)

Apesar de ser um dos mais utilizados benchmarks para alinhamento de sequˆencia de prote´ınas, o BAliBASE n˜ao ´e isento de cr´ıticas. B la˙zewicz e colegas [14] apontam que o uso destas m´etricas n˜ao ´e calculado corretamente pelo ferramental do BAliBASE quando regi˜oes que n˜ao s˜ao core blocks s˜ao avaliadas.

Edgar [35] aponta que muitas prote´ınas contidas no reposit´orio n˜ao possuem estru- tura conhecida, muitos conjuntos n˜ao s˜ao globalmente alinh´aveis por possuirem prote´ınas com dom´ınios distintos em ordem distinta, ou por haver algumas regi˜oes n˜ao hom´ologas alinhadas entre si. Al´em disto, s˜ao apontados problemas de alinhamentos estruturais e defini¸c˜ao incorreta de core blocks, por n˜ao representarem, de forma inequ´ıvoca segundo estes autores, uma estrutura secund´aria conservada entre as sequˆencias alinhadas.

Documentos relacionados