Algoritmo para Busca de Subestruturas Maximais

As restri¸cões das rela¸cões entre pares de vetores estão expressas através das arestas, presentes nos grafos apenas se os critérios referentes ao ângulo, código e distâncias entre vetores satisfazem àqueles estabelecidos pelo o usuário. As arestas são usadas na deter- mina¸cão do grau dos vértices e no procedimento de otimiza¸cão realizado através do teste de adjacência.

5.5 ALGORITMO PARA BUSCA DE SUBESTRUTURAS MAXIMAIS

Nesta se¸cão, uma abordagem para a busca de subestruturas maximais comuns em um grupo de prote´ınas é apresentada. A busca por subestruturas maximais em um conjunto de prote´ınas pode revelar rela¸cões, estruturais e funcionais, desconhecidas pre- viamente, auxiliando na constru¸cão de filogenias de prote´ınas bem como na classifica¸cão das prote´ınas em fam´ılias, as quais compartilham motivos e dobramentos similares.

Uma dificuldade que surge na classifica¸cão de prote´ınas é que estas são compostas por dom´ınios globulares, cuja identifica¸cão e delineamento é um processo dif´ıcil e freqüente- mente subjetivo.

Os dom´ınios podem ser definidos como um dobramento compacto, local e semi- independente. Eles podem ter uma fun¸cão própria dentro de uma prote´ına, razão pela qual as prote´ınas são divididas em dom´ınios discretos antes de serem classificadas. Em- bora de fácil identifica¸cão manual, a automatiza¸cão do processo de identifica¸cão não é uma tarefa simples. Diferentes algoritmos vêm sendo propostos, os quais recaem em diferentes conjuntos de regras para definir a estrutura de um dom´ınio, tais como, compacticidade, área de superf´ıcie, mapa de contatos entre res´ıduos e hidrofobicidade [Hadley and Jones, 1999].

A busca por subestruturas comuns a grupo de prote´ınas surge como uma op¸cão na identifica¸cão de dom´ınios, sendo esta mais uma motiva¸cão para o desenvolvimento da abordagem aqui apresentada.

No método aqui proposto, as prote´ınas são representadas segundo o grafo especifi- cado na Se¸cão 5.3. Ou seja, no grafo os vértices representam os elementos de estrutura secundária, com seu respectivos tipos e normas da representa¸cão vetorial, e as arestas representam diferentes tipos de relacionamentos entre estes elementos, quais sejam, os ângulos, codifica¸cão Lesk, distância entre os pontos médios dos vetores e distância entre as retas que contém os vetores. Além disso, as posi¸cões inicial e final dos elementos de estrutura secundária na cadeia polipept´ıdica também são armazenadas.

Utilizando tal representa¸c˜ao, o problema da busca por subestruturas maximais comuns a um grupo de prote´ınas foi reduzido ao problema da Busca por um Subgrafo Maximal.

5.5 algoritmo para busca de subestruturas maximais 98

A busca por um subgrafo maximal é uma importante generaliza¸cão do problema de isomorfismo de grafos, o qual generaliza também a busca por subgrafos isomorfos. Tal problema, fundamental em Teoria dos Grafos, também é NP-completo [Valiente, 2002].

O método desenvolvido para determinar subestruturas comuns baseou-se num algoritmo clássico para a busca por subgrafos maximais, o qual foi proposto por McGre- gor [McGregor, 1982]. O algoritmo, originalmente desenvolvido para comparar pares de grafos, foi adaptado para incluir as restri¸cões concernentes à representa¸cão utilizada e permitir a compara¸cão múltipla de estruturas.

A idéia básica do algoritmo de McGregor é efetuar o produto dos grafos envolvidos e reduzir a busca por subgrafos maximais comuns à busca por cliques maximais no grafo resultante, sendo o produto de dois grafos [Valiente, 2002] definido como segue:

Sejam G1 = (V1, E1) e G2 = (V2, E2) dois grafos. O produto dos grafos G1× G2 ´e o grafo G = (V, E) onde V = V1 × V2 e E = {((vi, wi), (vj, wj)) ∈ V × V | vi 6= vj, wi 6= wj, (vi, vj)∈ E1, (wi, wj)∈ E2}∪{((vi, wi), (vj, wj))∈ V ×V | vi 6= vj, wi 6= wj, (vi, vj)6∈ E1, (wi, wj)6∈ E2}.

Em outras palavras, os vértices do grafo produto correspondem a pares ordenados cujos elementos são os vértices dos grafos G1 e G2 e dois vértices serão ligados por uma aresta apenas se os dois vértices que compõem as duas tuplas estão ligados nos grafos originais ou se os dois vértices que compõem as duas tuplas não estão ligados nos grafos originais (Figura 5.9). a b c (A) d e f (B) ad ae bd be cd ce af bf cf (AXB)

Figura 5.9. Exemplo de produto de grafos. O produto dos grafos A e B ´e representado no

grafo AXB. As linhas tracejadas indicam arestas entre os pares de v´ertices n˜ao relacionados em A e em B.

Cliques no grafo produto corresponder˜ao a subestruturas comuns [Valiente, 2002], as quais podem ser obtidas decompondo os v´ertices presentes nos cliques de modo a obter o

5.5 algoritmo para busca de subestruturas maximais 99

conjunto de vértices que compõem a tupla. Os primeiros vértices das tuplas que compõem um clique correspondem a um subgrafo de G1 e os segundos vértices correspondem a um subgrafo em G2, sendo tais subgrafos isomorfos.

No exemplo exibido na Figura 5.9, os vértices ae, bd e cf formam um clique maximal no grafo produto A× B. Ao decompormos os elementos das t-uplas em vértices do grafo A e vértices do grafo B, encontramos que A e B são isomorfos, sendo o mapeamento dos vértices correspondentes dado por a→ e, b → d e c → f.

O algoritmo de McGregor foi adaptado de modo a buscar pelo subgrafo maximal comum a um grupo de N grafos. A defini¸cão do produto de dois grafos é generalizada para N grafos e, neste caso a busca por cliques maximais é efetuada no grafo resultante, sendo o subgrafo maximal aquele que decorre da decomposi¸cão da n-uplas dos vértices pertencentes ao clique.

Uma vez que o cálculo do produto de N grafos leva a uma explosão de complexidade, as restri¸cões da nossa descri¸cão de estruturas de prote´ınas foram utilizadas de modo a viabilizar a utiliza¸cão de tal algoritmo em problemas relativos à compara¸cão de prote´ınas. Assim, o produto dos grafos correspondentes a um conjunto de N prote´ınas é efetuado como segue:

• o produto dos vértices envolve apenas vértices similares, ou seja, vértices correspondentes a elementos do mesmo tipo e com tamanhos aproximadamente iguais. Para medir a similaridade entre os tamanhos dos vetores, a média das normas de todos os elementos do conjunto é calculada e o vértice será aceito apenas se o valor absoluto da diferen¸ca entre a norma de cada elemento e a média do conjunto estiver abaixo de um certo limite;

• as arestas ligarão dois vértices apenas se todos os elementos correspondentes que compõem as n-uplas possuem ângulos e distâncias similares ou se tais valores são dissimilares para todos os elementos.

• A similaridade entre as distâncias foi calculada de acordo com um procedimento análogo ao utilizado nos tamanhos. Ou seja, a média das distâncias entre os vetores correspondentes pertencentes às n-uplas é calculada e uma aresta só ligará estas n- uplas caso o valor absoluto da diferen¸ca entre cada distância e a média esteja abaixo de um certo limite, ou se este é superado para todos os vértices das n-uplas. • A similaridade entre ângulos é verificada se para todas as combina¸cões de pares de

elementos nas n-uplas analisadas o valor absoluto da diferen¸ca entre os ˆangulos est´a abaixo de um certo limite.

5.5 algoritmo para busca de subestruturas maximais 100

Os limites usados para medir o grau de similaridade entre os tamanhos dos vetores, ângulos e distâncias podem ser definidos pelo usuário, sendo introduzido também um grau de flexibilidade para aceita¸cão dos mesmos, cujo valor default é de 20%.

Assim, o algoritmo desenvolvido pode ser resumido nos seguintes passos:

i) Ler o conjunto de prote´ınas;

ii) Obter a representa¸c˜ao das prote´ınas atrav´es dos seus grafos correspondentes;

iii) Construir o grafo produto:

- Selecionar os v´ertices similares: Repita:

Para cada prote´ına selecione um v´ertice do mesmo tipo;

No conjunto de v´ertices obtidos, calcule a m´edia M das normas dos vetores;

Se, para todo vértice v do conjunto,_{|kvk − M| < δ}1, aceite o conjunto; Até que todas as combina¸cões de vértices tenham sido percorridas;

- Determinar as arestas que ligam os v´ertices similares:

Sejam dois conjuntos A e B de v´ertices similares:

Para todo par de vértices correspondentes (vi, wi), vi ∈ A, wi ∈ B Calcular a média MD das distâncias entre vi e wi;

Se (|d(vi, wi) − MD| < δ2, para todos os pares (vi, wi)) OU (_|d(vi, wi)− MD| > δ2, para todos os pares (vi, wi))

Então Se (a diferen¸ca entre os ângulos de todos os pares de elementos correspondentes for menor que δ3) OU (a diferen¸ca entre os ângulos de todos os pares de elementos correspondentes for maior que δ3)

Ent˜ao Coloque uma aresta entre os conjuntos de v´ertices A e B;

iv) Obter os cliques maximais no grafo resultante;

v) Decompor as n-uplas dos v´ertices pertencentes a cada clique de modo a obter a subestrutura comum em cada prote´ına.

No documento Análise de estruturas de proteínas (páginas 113-117)