1.5 Ferramentas Auxiliares
1.5.1 Ferramentas de Benchmark
A quantidade de ferramentas para MSA, assim como a quantidade de cen´arios onde uma ou outra destas pode ser efetiva, criou a necessidade de elabora¸c˜ao de algum mecanismo sistem´atico e quantitativo de compara¸c˜ao entre elas.
Observando-se os trabalhos iniciais na ´area de alinhaments m´ultiplos de sequˆencias vˆe-se a utiliza¸c˜ao de um conjunto arbitr´ario de alinhamentos, muitas vezes selecionado a partir de bancos de estruturas que, em geral, s˜ao organizados em fam´ılias hom´ologas.
Qualquer nova ferramenta naquela ´epoca, caso fosse comparada a ferramentas pr´evias, teria que recorrer aos conjuntos de testes apresentados naqueles trabalhos. Tal metodo- logia podia levar a conclus˜oes tendenciosas ao poder desconsiderar cen´arios onde uma das ferramentas (ou ambas) tinham deficiˆencias ou m´eritos. Como apontado por Thomp- son [119], as bases de dados n˜ao forneciam informa¸c˜ao classificada e estruturada para uma avalia¸c˜ao sistem´atica dos programas de alinhamento.
Devido a este problema surgiram conjuntos de testes e ferramentas para comparar a qualidade dos alinhamentos gerados por programas de MSA, funcionando como bench-
marks. Entre as ferramentas que medem alinhamentos de cadeias proteicas, podem ser
citadas o BAliBASE [10, 118, 119], HOMSTRAD [74] e PREFAB [34]. Para alinhamento de cadeias de RNA um exemplo ´e o BRAliBASE [40].
O BAliBASE, atualmente em sua terceira vers˜ao, foi o primeiro benchmark para ali- nhamento de cadeias de prote´ınas e ´e um dos mais utilizados para este fim, sendo a escolha de v´arios surveys de compara¸c˜ao [36, 47, 101], al´em de em muitos trabalhos sobre as pr´oprias ferramentas de MSA.
As vers˜oes anteriores desta ferramenta eram baseadas em um conjunto de alinha- mentos criados manualmente e bem conhecidos. Isto limitava o conjunto no tamanho e n´umero de sequˆencias. Para contornar estes problemas, a vers˜ao 3 foi constru´ıda sobre ali- nhamentos assistidos por algoritmos computacionais que foram posteriormente refinados manualmente.
O BAliBASE 3 possui 5 grupos de referˆencia, que representam diferentes cen´arios aos quais um programa de MSA pode ser exposto. Uma descri¸c˜ao sumarizada destes grupos e sua composi¸c˜ao pode ser vista na Tabela 2.3.
Os alinhamentos do BAliBASE s˜ao disponibilizados em dois formatos: truncados ape- nas com as regi˜oes hom´ologas ou contendo as sequˆencias integrais. Al´em disto estes alinhamentos s˜ao anotados de forma a refor¸car as regi˜oes consideradas muito confi´aveis para fins de avalia¸c˜ao, que s˜ao chamados core blocks.
O BAliBASE provˆe, al´em do alinhamento “ideal”, para os cen´arios disponibilizados, duas m´etricas para an´alise quantitativa dos alinhamentos gerados por uma ferramenta de MSA em rela¸c˜ao a estes [14]:
1.5. Ferramentas Auxiliares 35
Tabela 1.3: Grupos de Referˆencia do BAliBASE 3 Referˆencia Descri¸c˜ao N´umero de
Alinhamentos
N´umero de Sequˆencias RV11 Sequˆencias equidistantes com menos de
20% de identidade entre si e sem gran- des inser¸c˜oes (> 35 res´ıduos).
38 265
RV12 Sequˆencias equidistantes que comparti- lham entre 20 e 40% de identidade entre si, sem grandes inser¸c˜oes.
45 411
RV20 Fam´ılia de sequˆencias que possuem mais de 40% de identidade, por´em com uma sequˆencia “orf˜a” com menos de 20% de identidade com qualquer outra sequˆencia.
41 1896
RV30 Alinhamento de sub-fam´ılias, onde as sequˆencias de uma mesma sub-fam´ılia compartilham mais de 40% de identi- dade entre si, mas menos de 20% de identidade com qualquer sequˆencia de outra sub-fam´ılia.
30 1882
RV40 Sequˆencias que possuem mais de 20% de identidade entre si, por´em com gran- des extens˜oes nas termina¸c˜oes N/C.
48 1317
RV50 Sequˆencias que possuem mais de 20% de identidade entre si, com grandes in- ser¸c˜oes.
16 483
Total 217 6255
• SP score (Sum of Pairs) - Indica o percentual de pares de res´ıduos alinhados corretamente no alinhamento de teste quando comparado ao mesmo par de res´ıduos no alinhamento referˆencia em rela¸c˜ao ao n´umero total de pares de res´ıduos existentes no alinhamento referˆencia. Considerando um alinhamento com N sequˆencias e M colunas, onde a i-´esima coluna do alinhamento pode ser descrita pelos res´ıduos
Ai1, Ai2. . . , AiN, podemos definir pijk como sendo o indicador de acerto em rela¸c˜ao
ao alinhamento referˆencia. Desta forma, pijk = 1 se Aij e Aik est˜ao alinhados no
coluna do alinhamento de teste pode ser descrita pela Equa¸c˜ao 1.6. Si = N X j=1 N X k=1,j6=k pijk (1.6)
Baseado nesta medida, o SP pode ser definido de acordo com a Equa¸c˜ao 1.7, onde
Mr denota o tamanho do alinhamento de referˆencia e Sri o score de sua i-´esima
coluna. SP = M P i=1 Si Mr P i=1 Sri (1.7)
• TC score (Total Columns) - Indica o percentual de colunas do alinhamento de teste perfeitamente alinhados em rela¸cao ao alinhamento referˆencia. Sendo Cio score
da i-´esima coluna do alinhamento de teste, temos Ci = 1 se todos os res´ıduos da
coluna est˜ao alinhados no alinhamento referˆencia e Ci = 0, caso contr´ario. Baseado
nisto podemos definir T C de acordo com a Equa¸c˜ao 1.8.
T C = M P i=1 Ci M (1.8)
Apesar de ser um dos mais utilizados benchmarks para alinhamento de sequˆencia de prote´ınas, o BAliBASE n˜ao ´e isento de cr´ıticas. B la˙zewicz e colegas [14] apontam que o uso destas m´etricas n˜ao ´e calculado corretamente pelo ferramental do BAliBASE quando regi˜oes que n˜ao s˜ao core blocks s˜ao avaliadas.
Edgar [35] aponta que muitas prote´ınas contidas no reposit´orio n˜ao possuem estru- tura conhecida, muitos conjuntos n˜ao s˜ao globalmente alinh´aveis por possuirem prote´ınas com dom´ınios distintos em ordem distinta, ou por haver algumas regi˜oes n˜ao hom´ologas alinhadas entre si. Al´em disto, s˜ao apontados problemas de alinhamentos estruturais e defini¸c˜ao incorreta de core blocks, por n˜ao representarem, de forma inequ´ıvoca segundo estes autores, uma estrutura secund´aria conservada entre as sequˆencias alinhadas.