Aplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínas

(1)

Centro de Tecnologia

Programa de P´

os-Gradua¸

c˜

ao em Engenharia El´

etrica

Aplica¸

c˜

ao de T´

ecnicas de Aprendizado de M´

aquina no

Reconhecimento de Classes Estruturais de Prote´ınas

Valnaide Gomes Bittencourt

(2)

Universidade Federal do Rio Grande do Norte

Centro de Tecnologia

Programa de P´

os-Gradua¸c˜

ao em Engenharia El´

etrica

APLICAC

¸ ˜

AO DE T´

ECNICAS DE APRENDIZADO DE M ´

AQUINA NO

RECONHECIMENTO DE CLASSES ESTRUTURAIS DE PROTE´INAS

Valnaide Gomes Bittencourt

Disserta¸c˜ao submetida ao Programa de P´

os-Gradua¸c˜ao em Engenharia El´etrica do Centro

de Tecnologia da Universidade Federal do Rio

Grande do Norte, como parte dos requisitos

necess´arios para obten¸c˜ao do grau de Mestre em

Ciˆencias.

Orientador: Prof. Dr. Jos´e Alfredo Ferreira Costa

Co-orientador: Prof. Dr. Marc´ılio Carlos Pereira de Souto

Natal, Novembro de 2005

(3)

PROGRAMA DE P ÓS-GRADUAÇ ÃO EM ENGENHARIA ELÉTRICA

Aprovada em 25 de Novembro de 2005 pela comiss˜ao examinadora,

formada pelos seguintes membros:

Prof. Dr. Jos´e Alfredo Ferreira Costa (Orientador) Departamento de Engenharia El´etrica - UFRN

Prof. Dr. Marc´ılio Carlos Pereira de Souto (Co-Orientador) Departamento de Inform´atica e Matem´atica Aplicada - UFRN

Prof. Dr. Adrião Duarte Dória Neto (Examinador Interno) Departamento de Engenharia de Computa¸cão e Automa¸cão - UFRN

Profa. Dra. Teresa Bernarda Ludermir (Examinador Externo) Centro de Inform´atica - UFPE

(4)

Agradecimentos

A Deus, por mais esta oportunidade em minha vida, acompanhando bem de perto todos os meus passos; e a Nossa Senhora, por sempre me cobrir com seu manto de prote¸cão, dando-me paciência e esperan¸ca necessárias para a conclusão deste trabalho.

Ao professor José Alfredo, pela confian¸ca em mim depositada quando aceitou ser o meu orien-tador, pela liberdade que me deu na escolha do tema abordado nesta disserta¸cão, pelo entusiasmo constantemente demonstrado em nossas conversas e pelo apoio sempre concedido.

Ao professor Marc´ılio, por ter se mostrado dispon´ıvel para me ajudar mesmo antes de se tornar meu co-orientador, pela defini¸cão da abordagem do trabalho, pelos constantes ensinamentos, dis-cussões e direcionamentos, pela dedica¸cão e grande exemplo de ética, responsabilidade e competência. Aos meus pais, Sérgio e Lourdinha, pelo incentivo e dedica¸cão, pela maneira carinhosa e com-preensiva com que sempre me apóiam e pela educa¸cão e amor incondicional; irmãos, Hegel e Hélcio, pela forte amizade e amor, pelo est´ımulo e apoio sempre a mim proporcionados; e cunhada, Greicy, pelo carinho, incentivo e por partilhar comigo a experiência de se fazer uma pós-gradua¸cão.

Ao meu noivo, Silvio, pelo constante companheirismo, lealdade e amor, pela disponibilidade irrestrita, apesar de sua agenda lotada, e pela ativa presen¸ca ao longo da elabora¸cão desta disserta¸cão. Aos meus amigos mais próximos, cuja cita¸cão sabem ser para eles direcionada, pela afei¸cão e considera¸cão de sempre.

Aos novos colegas e amigos do mestrado, pelos momentos agradáveis juntos, pela freqüente companhia em almo¸cos, pela descontra¸cão e partilha de sentimentos.

`

A CAPES, pelo apoio financeiro; ao PROMETH, na pessoa do professor Dario, a quem também agrade¸co pela constante preocupa¸cão e interesse em minha vida não apenas profissional, e ao LA-BILIC, pelo apoio técnico.

Por ﬁm, agrade¸co a todas as pessoas do meu conv´ıvio, que, de uma forma ou de outra, con-tribu´ıram para o desenvolvimento deste trabalho.

(5)

Rm 12,12

(6)

Resumo

Atualmente, a classifica¸cão estrutural de prote´ınas, que diz respeito à inferência de padrões

em sua conforma¸c˜ao 3D, ´e um dos principais problemas em aberto da Biologia Molecular.

Esse problema vem recebendo a aten¸cão de muitos pesquisadores na área de Bioinformática

pelo fato de as fun¸c˜oes das prote´ınas estarem intrinsecamente relacionadas `as suas diferentes

conforma¸cões espaciais, que são de dif´ıcil obten¸cão experimental em laboratório.

Considerando a grande diferen¸ca entre o número de seqüências de prote´ınas conhecidas e

o n´umero de estruturas tridimensionais determinadas experimentalmente, ´e alta a demanda

por técnicas automatizadas de classifica¸cão estrutural de prote´ınas. Nesse contexto, as

ferramentas computacionais, principalmente as t´ecnicas de Aprendizado de M´aquina (AM),

tornaram-se alternativas essenciais para tratar esse problema.

Neste trabalho, t´ecnicas de AM s˜ao empregadas no reconhecimento de classes

estrutu-rais de prote´ınas: Árvore de Decisão, k-Vizinhos Mais Próximos, Na¨ıve Bayes, Máquinas de Vetores Suporte e Redes Neurais Artificiais. Esses métodos foram escolhidos por

re-presentarem diferentes paradigmas de aprendizado e serem bastante citados na literatura.

Visando conseguir uma melhoria de desempenho na solu¸c˜ao do problema abordado, sistemas

de multiclassifica¸cão homogênea (Bagging e Boosting) e heterogênea (Voting, Stacking e StackingC) são aplicados nesta pesquisa, usando como base as técnicas de AM anterior-mente mencionadas. Além disso, pelo fato de a base de dados de prote´ınas considerada

neste trabalho apresentar o problema de classes desbalanceadas, t´ecnicas artiﬁciais de

ba-lanceamento de classes (Under-sampling Aleatório, Tomek Links, CNN, NCL e OSS) são utilizadas a fim de minimizar esse problema e melhorar o desempenho dos classificadores.

(7)

Para a avalia¸cão dos métodos de AM, um procedimento de valida¸cão cruzada é

em-pregado, em que a acurácia dos classificadores é medida através das médias da taxa de

classifica¸cão incorreta nos conjuntos de testes independentes. Essas médias são

compara-das duas a duas pelo teste de hipótese a fim de avaliar se há diferen¸ca estatisticamente

signiﬁcativa entre elas.

Com os resultados obtidos, pode-se observar, entre os classiﬁcadores base, o

desempe-nho superior do método Máquinas de Vetores Suporte. Os sistemas de multiclassifica¸cão

(homogênea e heterogênea), por sua vez, apresentaram, em geral, uma acurácia superior ou

similar a dos classificadores usados como base, destacando-se oBoosting que usou Árvore de Decisão em sua forma¸cão e oStackingC tendo como meta classificador a Regressão Linear. O métodoVoting, apesar de sua simplicidade, também mostrou-se adequado para a solu¸cão do problema considerado nesta disserta¸cão. Em rela¸cão às técnicas de balanceamento de

classes, não foram alcan¸cados melhores resultados de classifica¸cão global com as bases de

dados obtidas com a aplica¸c˜ao de tais t´ecnicas. No entanto, foi poss´ıvel uma melhor

classi-fica¸cão espec´ıfica da classe minoritária, de dif´ıcil aprendizado. A técnica NCL foi a que se

(8)

Abstract

Nowadays, classifying proteins in structural classes, which concerns the inference of

pat-terns in their 3D conformation, is one of the most important open problems in Molecular

Biology. The main reason for this is that the function of a protein is intrinsically related to

its spatial conformation. However, such conformations are very diﬃcult to be obtained

ex-perimentally in laboratory. Thus, this problem has drawn the attention of many researchers

in Bioinformatics.

Considering the great diﬀerence between the number of protein sequences already known

and the number of three-dimensional structures determined experimentally, the demand of

automated techniques for structural classiﬁcation of proteins is very high. In this context,

computational tools, especially Machine Learning (ML) techniques, have become essential

to deal with this problem.

In this work, ML techniques are used in the recognition of protein structural classes:

Decision Trees,k-Nearest Neighbor, Na¨ıve Bayes, Support Vector Machine and Neural Net-works. These methods have been chosen because they represent diﬀerent paradigms of

learning and have been widely used in the Bioinfornmatics literature. Aiming to obtain

an improvment in the performance of these techniques (individual classiﬁers),

homoge-neous (Bagging and Boosting) and heterogehomoge-neous (Voting, Stacking and StackingC)

multi-classiﬁcation systems are used. Moreover, since the protein database used in this work

presents the problem of imbalanced classes, artiﬁcial techniques for class balance

(Under-sampling Random, Tomek Links, CNN, NCL and OSS) are used to minimize such a problem.

In order to evaluate the ML methods, a cross-validation procedure is applied, where

(9)

the accuracy of the classiﬁers is measured using the mean of classiﬁcation error rate, on

independent test sets. These means are compared, two by two, by the hypothesis test

aiming to evaluate if there is, statistically, a signiﬁcant diﬀerence between them.

With respect to the results obtained with the individual classiﬁers, Support Vector

Machine presented the best accuracy. In terms of the multi-classiﬁcation systems

(homoge-neous and heteroge(homoge-neous), they showed, in general, a superior or similar performance when

compared to the one achieved by the individual classiﬁers used - especially Boosting with

Decision Tree and the StackingC with Linear Regression as meta classiﬁer. The Voting

method, despite of its simplicity, has shown to be adequate for solving the problem

pre-sented in this work. The techniques for class balance, on the other hand, have not produced

a signiﬁcant improvement in the global classiﬁcation error. Nevertheless, the use of such

techniques did improve the classiﬁcation error for the minority class. In this context, the

(10)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao . . . 1

1.2 Objetivos . . . 5

1.3 Organiza¸c˜ao da Disserta¸c˜ao . . . 6

2 Prote´ınas 7 2.1 Introdu¸c˜ao . . . 7

2.2 Estruturas de Prote´ına . . . 8

2.2.1 Estrutura Prim´aria . . . 8

2.2.2 Estrutura Secund´aria . . . 12

2.2.3 Estrutura Terci´aria . . . 14

2.2.4 Estrutura Quatern´aria . . . 17

2.3 Classiﬁca¸c˜ao Estrutural . . . 18

2.3.1 Bancos de Dados Biol´ogicos . . . 19

2.3.2 Classe all-α . . . 20

2.3.3 Classe all-β . . . 20

2.3.4 Classe α/β . . . 21

2.3.5 Classe α+β . . . 22

2.4 An´alise Computacional . . . 22

2.5 Trabalhos Relacionados . . . 25

(11)

3 Aprendizado de M´aquina 30

3.1 Introdu¸c˜ao . . . 30

3.1.1 Paradigmas de AM . . . 31

3.1.2 Aprendizado Supervisionado . . . 32

3.2 Sistemas de Multiclassiﬁca¸c˜ao . . . 34

3.2.1 Multiclassiﬁcadores Homogˆeneos . . . 36

3.2.2 Multiclassiﬁcadores Heterogˆeneos . . . 41

3.3 Pr´e-processamento de Dados . . . 46

4 M´etodos e Experimentos 54 4.1 Base de Dados . . . 54

4.2 Metodologia de Valida¸c˜ao . . . 57

4.2.1 Valida¸c˜ao Cruzada . . . 58

4.2.2 Teste de Hip´otese . . . 59

4.3 Experimentos . . . 61

5 Resultados 66 5.1 Classiﬁcadores base . . . 66

5.2 Multiclassiﬁcadores . . . 67

5.2.1 Multiclassiﬁcadores Homogˆeneos . . . 67

5.2.2 Multiclassiﬁcadores Heterogˆeneos . . . 68

5.2.3 Discuss˜oes . . . 70

5.3 Pr´e-processamento de Dados . . . 75

5.4 Considera¸c˜oes ﬁnais . . . 85

(12)

Lista de Figuras

2.1 Estrutura prim´aria de uma prote´ına . . . 8

2.2 Estrutura geral de um amino´acido . . . 9

2.3 Forma¸c˜ao de liga¸c˜oes pept´ıdicas e cadeia polipept´ıdica resultante . . . 11

2.4 Representa¸c˜oes da α-h´elice . . . 13

2.5 Representa¸c˜oes da β-folha mista . . . 14

2.6 Estrutura terci´aria de uma prote´ına da Gram-negativa . . . 16

2.7 Estrutura terci´aria, em estereoscopia . . . 16

2.8 Estruturas secund´aria e terci´aria, em estereoscopia . . . 17

2.9 Estrutura quatern´aria da hemoglobina humana . . . 18

2.10 Prote´ına da classeall-β, em estereoscopia . . . 21

2.11 Prote´ına da classeα/β, em estereoscopia . . . 22

3.1 Estrutura de sistemas de multiclassiﬁca¸c˜ao . . . 35

3.2 Representa¸c˜ao do m´etodo Bagging . . . 37

3.3 Representa¸c˜ao do m´etodo AdaBoosting . . . 39

3.4 Representa¸c˜ao do m´etodo Stacking . . . 42

3.5 Representa¸c˜ao do m´etodo Stacking eStackingC . . . 45

3.6 Exemplo de dados com duas classes desbalanceadas . . . 49

5.1 Resumo dos resultados obtidos com os multiclassificadores homogêneos e seus respectivos classificadores base . . . 70

(13)

5.2 Resumo dos resultados obtidos com os multiclassiﬁcadores heterogˆeneos e

seus classiﬁcadores base . . . 71

5.3 Melhores resultados dos multiclassificadores homogêneos e heterogêneos . . 72

5.4 Resultados obtidos com a base de dados gerada com a t´ecnica NCL . . . 78

5.5 Resultados obtidos com as bases de dados original e as geradas com as t´ecnicas deunder-sampling . . . 80

5.6 Resultados obtidos para a classe minorit´aria . . . 81

5.7 Resultados obtidos para a classe majorit´aria . . . 81

5.8 Média de redu¸cão erro na classe minoritária . . . 82

(14)

Lista de Tabelas

2.1 Nomenclatura e simbologia dos 20 amino´acidos que podem formar as prote´ınas 10

2.2 C´odigo gen´etico . . . 11

3.1 Representa¸c˜ao de uma matriz de confus˜ao . . . 33

4.1 As seis propriedades extra´ıdas da seq¨uˆencia de prote´ına . . . 55

4.2 Distribui¸c˜ao das prote´ınas nas classes estruturais . . . 55

4.3 Distribui¸c˜ao da quantidade de prote´ınas nas dobras e nas classes estruturais 57 5.1 Taxa de erro dos classiﬁcadores base (%) . . . 67

5.2 Taxa de erro dos m´etodos Bagging (%) . . . 67

5.3 Taxa de erro dos m´etodos Boosting (%) . . . 68

5.4 Taxa de erro do m´etodoStacking (%) . . . 68

5.5 Taxa de erro do m´etodoStackingC (%) . . . 69

5.6 Taxa de erro do m´etodoVoting (%) . . . 69

5.7 Matrizes de confus˜ao dos classiﬁcadores base . . . 74

5.8 Taxa de erro, por classe (%) . . . 75

5.9 Taxa de erro global para cada t´ecnica de under-samplig (%) . . . 75

5.10 Taxa de erro da classeα+β para cada t´ecnica deunder-samplig (%) . . . 76

5.11 Taxa de erro da classeα/β para cada t´ecnica de under-samplig (%) . . . . 76

5.12 Taxa de erro dos multiclassiﬁcadores com a base de dados originada pela t´ecnica NCL (%) . . . 77

5.13 Taxa de erro, por classe, com a t´ecnica NCL (%) . . . 78

(15)

5.14 Taxa de erro global e das classes minorit´aria (α+β) e majorit´aria (α/β) para a base de dados original (%) . . . 79

5.15 Matrizes de confus˜ao dos classiﬁcadores base com a base de dados gerada

(16)

Cap´ıtulo 1

Introdu¸

c˜

ao

1.1 Motiva¸

c˜

ao

A utiliza¸cão de novas e eficientes técnicas na análise de seqüências de genomas vem sendo

responsável pelo considerável crescimento dos bancos de dados biológicos dispon´ıveis

(Wa-terman 1995; Meidanis and Set´ubal 1997; Baldi and Brunak 2001). Esses dados necessitam

de métodos adequados de manipula¸cão e análise para que possam ser utilizados de forma

mais efetiva pelos biólogos. A investiga¸cão e aperfei¸coamento desses métodos é o grande

de-safio de uma nova área de pesquisa que surgiu na década de 90, acompanhando os projetos

genoma, chamada de Bioinform´atica ou Biologia Computacional (Souto et al. 2003).

A Bioinformática tem por objetivo o estudo e aplica¸cão de técnicas computacionais a

tarefas das mais diversas ´areas da Biologia, dentre elas, a Biologia Molecular (Lorena et al.

2002; Set´ubal 2003; Souto et al. 2003). Nesse contexto, a computa¸c˜ao pode ser aplicada na

resolu¸cão de uma série de problemas, tais como: compara¸cão de seqüências (DNA, RNA

e prote´ınas), montagem de fragmentos, reconhecimento de genes, identifica¸cão e análise da

expressão de genes, reconstru¸cão de árvores filogenéticas e determina¸cão da estrutura de

prote´ınas (Baldi and Brunak 2001; Set´ubal 2003; Souto et al. 2003).

Dentre esses problemas, a predi¸cão teórica da estrutura de prote´ınas é, atualmente, o

grande desaﬁo da Bioinform´atica. O estudo relativo a este assunto vem caracterizando uma

nova fase para as pesquisas genéticas, denominada Proteômica (Guimarães and Melo 2003),

que surgiu após a finaliza¸cão do seqüenciamento do genoma humano (Consortium 2001) e

(17)

de diversos outros organismos. O termo “Proteômica” envolve a identifica¸cão de todas as

prote´ınas expressas pelo genoma bem como a determina¸cão de suas fun¸cões fisiológicas e

patol´ogicas.

A fun¸cão da prote´ına é intrinsecamente relacionada à conforma¸cão espacial (estrutura

tridimensional - 3D) que ela apresenta (Guimar˜aes and Melo 2003). Al´em disso, o

conhe-cimento da estrutura 3D da prote´ına ´e essencial para, por exemplo, o desenvolvimento de

novos medicamentos e métodos de diagnóstico. Porém, a identifica¸cão dessa conforma¸cão

espacial não é uma tarefa simples. Por exemplo, os métodos tradicionais de obten¸cão da

es-trutura 3D de prote´ınas, tais como cristalografia de raiosX(Abola et al. 2000) e Ressonância Magnética Nuclear (RMN) (Güntert 2003), são muito caros, trabalhosos, demorados e têm

limita¸c˜oes pr´oprias (Chinnasamy, Sung, and Mittal 2004).

De fato, determinar a seqüência de uma prote´ına é relativamente mais fácil do que

determinar a sua estrutura 3D, o que leva a uma grande diferen¸ca entre o n´umero de

seqüências e o número de estruturas e fun¸cões protéicas conhecidas (Nelson and Cox 2000).

A fim de diminuir esta disparidade, métodos computacionais são cada vez mais empregados.

Dessa forma, a identiﬁca¸c˜ao automatizada da estrutura 3D da prote´ına tornou-se o foco mais

recente de pesquisa na ´area de Bioinform´atica (Mirkin and Ritter 1999).

Computacionalmente, destacam-se dois tipos de pesquisas na identiﬁca¸c˜ao da estrutura

3D de uma prote´ına: a análise de seqüência e a análise de estrutura (Guimarães and Melo

2003). A modelagem de uma prote´ına através da análise de seqüencia baseia-se no conceito

de evolu¸cão molecular. Isto é, parte-se do princ´ıpio de que a similaridade entre a seqüencia

de aminoácidos (estrutura primária) de uma prote´ına da qual não se sabe a fun¸cão e a

seq¨uencia de uma prote´ına cuja estrutura tridimensional ´e conhecida implica em similaridade

estrutural entre elas. Contudo, embora muitas das prote´ınas possuam um alto grau de

similaridade em termos de seqüencia de aminoácidos, elas podem não compartilhar da

mesma fun¸c˜ao. Por outro lado, duas prote´ınas podem ter um baixo grau de similaridade

e, entretanto, apresentarem fun¸c˜oes semelhantes (Okun 2004). A an´alise de estrutura, por

sua vez, diz respeito `a predi¸c˜ao da estrutura tridimensional de uma prote´ına a partir de sua

(18)

1.1. MOTIVAC¸ ˜AO 3

A inferência da estrutura 3D da prote´ına com base apenas em sua seqüência foi

demons-trado ser um problema NP-dif´ıcil (Guimar˜aes and Melo 2003). Devido a alta complexidade,

tal procedimento é dividido em uma série de passos intermediários, como por exemplo:

a predi¸c˜ao de estrutura secund´aria (Jones 1999; Petersen et al. 2000; Baldi and Brunak

2001; Pollastri et al. 2002; Guimarães, Melo, and Cavalcanti 2003) e a classifica¸cão

estru-tural (Bologna and Appel 2002; Ding and Dubchak 2001; Tan, Gilbert, and Deville 2003;

Huang et al. 2003; Okun 2004; Chinnasamy, Sung, and Mittal 2004). A predi¸c˜ao de

estru-tura secundária de prote´ınas consiste na localiza¸cão, na seqüência, de subestruturas comuns,

comoα-h´elices eβ-folhas.

A classifica¸cão estrutural de prote´ınas, por sua vez, diz respeito à identifica¸cão de

padrões estruturais na conforma¸cão 3D. Esta classifica¸cão pode ser decomposta em dois

n´ıveis hierárquicos. No primeiro n´ıvel, as prote´ınas são classificadas em dobras (problema

conhecido como reconhecimento de dobras de prote´ınas). No segundo n´ıvel, as prote´ınas s˜ao

classiﬁcadas em classes estruturais, de acordo com os tipos de dobras por elas apresentados.

Este problema ´e conhecido como reconhecimento de classes estruturais de prote´ınas, que

ser´a foco desta disserta¸c˜ao.

Atualmente, mais de 700 tipos diferentes de dobras de prote´ınas j´a foram

identifica-dos (Lo Conte et al. 2000), classificaidentifica-dos normalmente em sete classes estruturais distintas.

As similaridades estruturais das prote´ınas com mesmas dobras derivam das propriedades

f´ısicas e qu´ımicas que favorecem determinados arranjos e topologias. Considerando a grande

diferen¸ca entre o número de seqüências conhecidas e o número de estruturas 3D

determi-nadas experimentalmente (a rela¸cão é mais de 100 para 1), a demanda por técnicas

auto-matizadas de reconhecimento (ou predi¸c˜ao) de dobras ou classes estruturais de prote´ınas ´e

bastante alta (Okun 2004).

As ferramentas que usam computa¸c˜ao convencional, no entanto, s˜ao limitadas para

abordar problemas biol´ogicos complexos, como este em quest˜ao. Isto ocorre, entre outras

razões, devido à ausência de uma teoria fundamental em n´ıvel molecular e à ineficiência

das ferramentas convencionais em lidar com grandes quantidades de dados (Souto et al.

(19)

aprender automaticamente a partir de grandes volumes de dados e produzir hip´oteses ´uteis,

s˜ao, ent˜ao, cada vez mais empregadas para tratar problemas em Biologia Molecular (Baldi

and Brunak 2001). De fato, o uso de t´ecnicas de AM tem sido consideravelmente explorado

na predi¸c˜ao autom´atica de estruturas de prote´ınas (Selbig and Argos 1998; Baldi et al.

2000; Turcotte, Muggleton, and Sternberg 2001; Ding and Dubchak 2001; Tan, Gilbert,

and Deville 2003).

Neste trabalho, técnicas de AM são empregadas para realizar a predi¸cão de classe

estru-turais de prote´ınas: Árvore de Decisão (AD), k-Vizinhos Mais Próximos (k-NN, do inglês k-Nearest Neighbor), Na¨ıve Bayes (NB), Máquinas de Vetores Suporte (SVM, do inglês Support Vector machine) e Redes Neurais Artificiais (RNA). Tais métodos foram escolhi-dos por representarem diferentes paradigmas de aprendizado e serem bastante citaescolhi-dos na

literatura, inclusive na abordagem espec´ıﬁca deste problema (Ding and Dubchak 2001; Tan,

Gilbert, and Deville 2003; Chung et al. 2003).

Visando conseguir uma melhoria de desempenho na predi¸c˜ao de classes estruturais de

prote´ınas, sistemas de multiclassifica¸cão (homogênea e heterogênea), ouensembles, são em-pregados nesta pesquisa, usando como base as técnicas de AM anteriormente mencionadas.

Recentemente, métodos multiclassificadores aplicados a problemas de Bioinformática foram

investigados (Dudoit, Fridlyand, and Speed 2002; Long and Vega 2003; Tan and Gilbert

2003). Freqüentemente, o erro de um sistema de multiclassifica¸cão é menor do que o erro de

um único classificador (Bologna and Appel 2002). Neste trabalho, são usados os seguintes

multiclassiﬁcadores: Bagging, Boosting, Voting, Stacking e StackingC.

Al´em disso, a base de dados de prote´ınas usada neste trabalho apresenta o problema

de classes desbalanceadas (Batista 2003). Com o objetivo de minimizar esse problema e

melhorar o desempenho dos classificadores empregados, são utilizadas algumas técnicas de

pré-processamento de dados encontradas na literatura e até então não aplicadas a esta base

(20)

1.2. OBJETIVOS 5

1.2 Objetivos

O objetivo principal desta disserta¸cão é a investiga¸cão e aplica¸cão de técnicas de

Apren-dizado de Máquina capazes de garantir uma alta precisão na classifica¸cão de prote´ınas em

classes estruturais. De modo geral, a abrangˆencia deste trabalho pode ser resumida da

seguinte maneira:

• Problema: classiﬁca¸c˜ao de prote´ınas em classes estruturais (all-α, all-β, α/β, α+β e small).

• Dados de entrada: prote´ınas representantes de cada uma das cinco classes

estrutu-rais consideradas. Cada prote´ına é apresentada como sendo um vetor den atributos cont´ınuos obtidos de propriedades derivadas de sua estrutura primária (seqüencia de

amino´acidos).

• Objetivo: usar diferentes t´ecnicas de AM para gerar classiﬁcadores capazes de

clas-siﬁcar adequadamente as prote´ınas em classes estruturais.

Inicialmente, é realizada uma análise de desempenho das seguintes técnicas de AM,

esco-lhidas por motivos previamente apresentados: AD,k-NN, NB, SVM e RNA do tipo Multi-Layer Perceptron (MLP). Tomando como base os resultados obtidos com essas técnicas, são gerados multiclassificadores homogêneos (Bagging eBoosting) e heterogêneos (Voting, Stacking e StackingC), sendo o desempenho destes comparados entre si e entre os dos classificadores usados em sua forma¸cão, a fim de se identificar o método que seja capaz

de realizar uma melhor classifica¸cão das prote´ınas. Desse modo, além da avalia¸cão dos

classiﬁcadores usados como base, este trabalho faz um estudo da viabilidade de um

am-biente multiclassiﬁcador aplicado ao problema do reconhecimento de classes estruturais de

prote´ınas.

Na busca por melhores desempenhos dos classiﬁcadores e diante do n´ıtido problema de

desbalanceamento de classes na base de dados empregada neste trabalho, s˜ao tamb´em

(21)

mais especificamente técnicas de under-sampling, tais como: Under-sampling Aleatório, Tomek Links, CNN, NCL e OSS.

Para avaliar os métodos de classifica¸cão usados neste trabalho, é empregada uma

metodo-logia de valida¸cão, baseada na utiliza¸cão dok-fold cross validation(Costa Filho, Carvalho, and Souto 2003), que estima o erro médio de generaliza¸cão de um certo modelo. Também é

aplicado o teste de hip´otese (Dietterich 1998), a ﬁm de detectar diferen¸cas estatisticamente

significativas entre os resultados obtidos com os diferentes métodos de classifica¸cão, inclusive

com o emprego das diferentes bases de dados geradas com as t´ecnicas de under-sampling.

1.3 Organiza¸

c˜

ao da Disserta¸

c˜

ao

Esta disserta¸c˜ao est´a dividida em seis cap´ıtulos, organizados da seguinte maneira:

• Cap´ıtulo 2: são apresentadas algumas defini¸cões importantes no que diz respeito

`

as prote´ınas, de modo a se entender melhor o problema de classiﬁca¸c˜ao estrutural

de prote´ınas, e feita uma breve revis˜ao na literatura sobre trabalhos relacionados ao

assunto abordado nesta pesquisa.

• Cap´ıtulo 3: são explicitados alguns conceitos básicos da área de AM e descritos os

sistemas de multiclassifica¸cão e de pré-processamento de dados (técnicas de under-sampling de balanceamento de classes) que são utilizados neste trabalho.

• Cap´ıtulo 4: s˜ao descritas a base de dados, a metodologia de valida¸c˜ao dos resultados

e a maneira pela qual os experimentos s˜ao realizados.

• Cap´ıtulo 5: s˜ao mostrados e analisados os resultados obtidos nos experimentos.

• Cap´ıtulo 6: são apresentadas, por fim, algumas conclusões e perspectivas futuras

(22)

Cap´ıtulo 2

Prote´ınas

Este cap´ıtulo descreve alguns aspectos importantes em rela¸cão às prote´ınas, necessários à

compreensão do problema abordado nesta disserta¸cão. A Se¸cão 2.1 introduz concep¸cões

básicas sobre prote´ınas. A Se¸cão 2.2 aborda a constitui¸cão e forma¸cão da estrutura de

prote´ınas para se compreender melhor a classiﬁca¸c˜ao empregada neste trabalho, apresentada

na Se¸cão 2.3. A Se¸cão 2.4 mostra alguns enfoques computacionais relativos à solu¸cão

de problemas na área de Proteômica, principalmente sobre a classifica¸cão estrutural de

prote´ınas. Uma breve revis˜ao na literatura sobre trabalhos relacionados ao assunto abordado

nesta pesquisa ´e apresentada na Se¸c˜ao 2.5.

2.1 Introdu¸

c˜

ao

Genoma é o conjunto completo de informa¸cões necessárias para o desenvolvimento de um

organismo, que se encontra armazenado nos cromossomos (Guimar˜aes and Melo 2003). Os

cromossomos são formados essencialmente por cadeias de ácido desoxirribonucléico (DNA,

do inglês DeoxyriboNucleic Acid). Essas cadeias contêm milhares de genes, a partir dos quais são fabricadas todas as prote´ınas de um organismo através do processo de expressão

gˆenica (Nelson and Cox 2000).

As prote´ınas1_{são macromoléculas complexas, compostas de aminoácidos, necessárias em} todos os processos qu´ımicos que ocorrem nos organismos vivos (Lewis 2001): de regula¸cão

1

A palavra “prote´ına” vem do grego “proteios”, que signiﬁca “em primeiro lugar” (Tsunoda 2005).

(23)

(como as enzimas que catalisam as rea¸cões qu´ımicas das células), de imuniza¸cão (como os

anticorpos que protegem o organismo contra corpos estranhos) e de constru¸c˜ao de outras

moléculas (como na produ¸cão de ácidos nucléicos, carboidratos e lip´ıdios) (Lewis 2001;

Souto et al. 2003). Por essa razão, as prote´ınas são consideradas os constituintes básicos da

vida. De fato, elas tˆem um papel essencial no metabolismo, participando praticamente de

todas as atividades celulares (Nelson and Cox 2000).

2.2 Estruturas de Prote´ına

As prote´ınas apresentam estruturas complexas que podem ser organizadas em quatro n´ıveis:

estrutura primária (Se¸cão 2.2.1), secundária (Se¸cão 2.2.2), terciária (Se¸cão 2.2.3) e quatern´

a-ria (Se¸cão 2.2.4). Os três últimos estão relacionados a estrutura espacial da prote´ına (Silva

1999).

2.2.1 Estrutura Prim´

aria

A estrutura prim´aria de uma prote´ına (apresentada na Figura 2.1, retirada de (Silva 1999))

é simplesmente a seqüência linear dos aminoácidos ligados entre si por liga¸cões pept´ıdicas

que constituem essa prote´ına. A seguir, ser˜ao esclarecidos alguns aspectos a respeito dos

amino´acidos e da cadeia polipept´ıdica formada por eles.

Figura 2.1: Estrutura prim´aria de uma prote´ına

Amino´acidos - Composi¸c˜ao e Estrutura

Os amino´acidos (cuja estrutura geral pode ser vista na Figura 2.2) s˜ao formados por um

(24)

2.2. ESTRUTURAS DE PROTE´INA 9

e um grupo am´ınico (-NH2), comuns a todos os amino´acidos, e um grupo R, ou cadeia lateral, que os distingue entre si (Nelson and Cox 2000). Essas cadeias laterais podem diferir

bastante em rela¸c˜ao ao tamanho, estrutura, forma e propriedades qu´ımicas. Elas exercem

influência em muitas caracter´ısticas dos aminoácidos, como por exemplo, na solubilidade

do aminoácido em água (Guimarães and Melo 2003).

Figura 2.2: Estrutura geral de um amino´acido

Existem apenas 20 amino´acidos diferentes (listados na Tabela 2.1) codiﬁcados, no

pro-cesso de expressão gênica, pelos códons (grupo de três nucleot´ıdeos do ácido ribonucléico

mensageiro2_{). Porém, há 64 poss´ıveis combina¸cões de triplas de nucleot´ıdeos, ou seja, 64}

códons. Portanto, muitos dos aminoácidos são mapeados por mais de um códon. Desses 64

códons, três são responsáveis por indicar o final da tradu¸cão, sendo denominados códons de

parada (Souto et al. 2003). As diferentes codiﬁca¸c˜oes, que podem ser visualizadas na Tabela

2.2, é o que representa o código genético. O primeiro, o segundo e o terceiro nucleot´ıdeo dos

c´odons s˜ao representados, respectivamente, pela coluna mais a esquerda, a primeira linha

e a coluna mais a direita da tabela (Esquerda-Topo-Direita) (Lewis 2001). Exemplo: ATG

codifica Metionina (Met). Na Tabela 2.2, o códonTer é o códon de parada.

2

(25)

Tabela 2.1: Nomenclatura e simbologia dos 20 amino´acidos que podem formar as prote´ınas

Nome S´ımbolos

Alanina Ala A

Valina Val V

Leucina Leu L

Isoleucina Ile I

Prolina Pro P

Fenilalanina Phe F Triptofano Trp W Metionina Met M

Glicina Gly G

Serina Ser S

Treonina Thr T Ciste´ına Cys C Tirosina Tyr Y Asparagina Asn N Glutamina Gln Q

Lisina Lys K

Arginina Arg R Histidina His H

´

Acido Asp´artico Asp D

Cadeia Polipept´ıdica

Durante a s´ıntese de prote´ına, o grupo carbox´ılico de um amino´acido e o grupo am´ınico

de outro liberam uma molécula de água e formam uma liga¸cão covalente3 _denominada liga¸cão pept´ıdica. Após a incorpora¸cão à cadeia polipept´ıdica, os aminoácidos individuais

são chamados de res´ıduos de aminoácidos4_{. A cadeia polipept´ıdica contém de algumas}

dezenas a várias centenas de res´ıduos de aminoácidos (ou simplesmente aminoácidos) que,

ligados deste modo, formam uma estrutura em zig-zag de onde sobressaem as v´arias cadeias

laterais. A Figura 2.3 (retirada de (Silva 1999)) ilustra o processo de forma¸c˜ao de liga¸c˜oes

pept´ıdicas e a cadeia polipept´ıdica resultante.

3

Liga¸cão entre dois átomos com partilha de dois ou mais elétrons.

4

(26)

Tabela 2.2: C´odigo gen´etico

T C A G

T Phe Ser Tyr Cys T

C

Leu Ter Ter A

Trp G

C Leu Pro His Arg T

C

Gin A

G

A IIe Thr Asn Ser T

C

Lys Arg A

Met G

G Val Ala Asp Gly T

C

Glu A

G

(27)

O primeiro amino´acido da cadeia, que tem o grupo am´ınico livre, ´e chamado de

ex-tremidade N-terminal, ou aminoterminal; e o ´ultimo, que tem o grupo carbox´ılico livre,

extremidade C-terminal, ou carboxiterminal. A estrutura prim´aria de uma prote´ına

con-siste na seqüência de aminoácidos da sua cadeia polipept´ıdica, representada no sentido da

extremidade N-terminal para a extremidade C- terminal. Caso a prote´ına seja formada

por várias cadeias, a estrutura primária consiste nas respectivas seqüências. A Figura

2.1 mostrada anteriormente representa a estrutura prim´aria de uma prote´ına, denominada

prote´ına G.

2.2.2 Estrutura Secund´

aria

A estrutura secundária diz respeito à rela¸cão espacial entre aminoácidos próximos (Creighton

1993). Essa estrutura ´e caracterizada por padr˜oes tridimensionais regulares e repetitivos que

ocorrem localmente no dobramento da prote´ına. Dois dos padr˜oes de estrutura secund´aria

mais comuns s˜ao asα-h´elices e asβ-folhas (Chothia et al. 1997).

1. α-h´elices

Uma α-hélice surge a partir da forma¸cão de pontes de hidrogênio entre o átomo de hidrogênio do grupo am´ınico e o átomo de oxigênio do grupo carbox´ılico das liga¸cões

pept´ıdicas, formando uma estrutura helicoidal com 3,6 res´ıduos de amino´acidos em

cada volta. ´E uma estrutura consideravelmente est´avel tendo em vista que todos os

res´ıduos participam das pontes de hidrogˆenio (com exce¸c˜ao dos res´ıduos das

extremi-dades da hélice) (Nelson and Cox 2000). Nela, todas as cadeias lateraisRprojetam-se para fora da hélice. A Figura 2.4 (retirada de (Silva 1999)) mostra três representa¸cões

diferentes daα-h´elice: Ball & stick, sticks e cartoon5_.

Além das α-hélice, existem outros tipos de hélice, como as π hélice e a hélice 310, menos estáveis e muito menos comuns do que aα-hélice.

5

(28)

Figura 2.4: Representa¸c˜oes daα-h´elice

2. β-folhas

A estrutura de uma β-folha resulta da forma¸c˜ao de pontes de hidrogˆenio entre duas ou mais cadeias polipept´ıdicas adjacentes, formando uma estrutura planar onde as

cadeias laterais se encontram viradas para cima e para baixo, e nunca interagem

umas com as outras.

De acordo com a orienta¸cão relativa dos segmentos da β-folha (orienta¸cão amino-carboxila), esta recebe a classifica¸cão de paralela (segmentos todos orientados na

mesma dire¸c˜ao), antiparalela (segmentos adjacentes orientados em dire¸c˜oes opostas)

(29)

(Nelson and Cox 2000). A Figura 2.5 (retirada de (Silva 1999)) mostra duas

repre-senta¸c˜oes diferentes daβ-folha mista.

Figura 2.5: Representa¸c˜oes daβ-folha mista

2.2.3 Estrutura Terci´

aria

Essencialmente, a estrutura terci´aria (ou tridimensional) de uma prote´ına consiste na

con-forma¸cão tridimensional dos elementos da estrutura secundária em uma única cadeia

polipep-t´ıdica, que resulta em uma estrutura compacta onde os átomos ocupam posi¸cões espec´ıficas. ´

E, portanto, o arranjo tridimensional de todos os ´atomos que comp˜oem uma prote´ına (Levitt

and Chothia 1976), sendo estabilizado por intera¸c˜oes qu´ımicas entre as cadeias laterais dos

aminoácidos como, dentre outras, for¸cas de van der Waals, oxida¸cão de ciste´ına, liga¸cões

(30)

A estrutura terciária relaciona-se com os loopings e dobramentos da cadeia protéica sobre ela mesma. Loopings e dobramentos são processos nos quais uma molécula não organizada, que acabou de ser sintetizada, adquire uma estrutura altamente organizada

como conseqüência de intera¸cões entre as cadeias laterais dos aminoácidos (Guimarães and

Melo 2003).

A estrutura tridimensional de uma prote´ına apresenta v´arias caracter´ısticas

importan-tes (Motta 2003), como:

• Muitas prote´ınas dobram-se de modo que os res´ıduos de amino´acidos que est˜ao

dis-tantes uns dos outros na estrutura prim´aria podem estar pr´oximos na estrutura

terci´aria.

• Algumas prote´ınas dobram-se em duas ou mais regi˜oes compactas conectadas por

um segmento ﬂex´ıvel de cadeia polipept´ıdica. Essas unidades compactas, chamadas

dom´ınios, são formadas por 40 a 400 res´ıduos de aminoácidos. Dom´ınios são segmentos

estruturalmente independentes que têm fun¸cões espec´ıficas. As pequenas prote´ınas

possuem, geralmente, apenas um dom´ınio.

A Figura 2.6 (retirada de (Guimar˜aes and Melo 2003)) mostra uma estrutura

tridimen-sional de uma prote´ına da bact´eriaGram-negativae a Figura 2.7 (retirada de (Silva 1999)) mostra, em estereoscopia6_{, uma representa¸c˜ao do dom´ınio B1 da prote´ına G, cuja estrutura}

prim´aria foi apresentada na Figura 2.1.

Muitas vezes é extremamente útil visualizar as estruturas secundária e terciária no

mesmo modelo. Para isso, utilizam-se as representa¸cões pictóricas daα-hélice e daβ-folhas, como as apresentadas nas Figuras 2.4 e 2.5 (Se¸cão 2.2.2), respectivamente. O resultado da

visualiza¸c˜ao conjunta das duas estruturas em um ´unico modelo encontra-se ilustrado na

Figura 2.8 (retirada de (Silva 1999)), que representa o dom´ınio B1 da prote´ına G (cuja

estrutura terci´aria foi mostrada na Figura 2.6, em estereoscopia). Esta ´e a forma mais

comum de representa¸cão das estruturas secundária e terciária de prote´ınas.

6

(31)

Figura 2.6: Estrutura terci´aria de uma prote´ına daGram-negativa

(32)

Figura 2.8: Estruturas secund´aria e terci´aria, em estereoscopia

2.2.4 Estrutura Quatern´

aria

A estrutura quaternária consiste nas rela¸cões e disposi¸cões relativas das cadeias

polipep-t´ıdicas presentes nas prote´ınas multim´ericas, ou seja, prote´ınas que apresentam mais de

uma cadeia polipept´ıdica.

As cadeias polipept´ıdicas das prote´ınas multiméricas são associadas por intera¸cões

n˜ao-covalentes entre os grupos desprotegidos que n˜ao participam do dobramento de cada uma

das cadeias. O arranjo espacial que as subcadeias da prote´ına passam a ter ´e conhecido

como estrutura quatern´aria.

Dependendo da estrutura quaternária da prote´ına, ela pode ser classificada como fibrosa

(cadeias polipept´ıdicas dispostas ao longo de um eixo, formando uma estrutura alongada)

ou globular (cadeias polipept´ıdicas muito compactas, formando uma estrutura esf´erica).

A Figura 2.9 (retirada de (Silva 1999)) mostra a conforma¸c˜ao da hemoglobina humana,

(33)

Figura 2.9: Estrutura quatern´aria da hemoglobina humana

2.3 Classiﬁca¸

c˜

ao Estrutural

A maioria dos trabalhos dedicados ao estudo da estrutura de prote´ınas empregam uma das

classifica¸cões estruturais clássicas definidas por bancos de dados de prote´ınas mundialmente

difundidos. Muitas dessas pesquisas abordam a classiﬁca¸c˜ao estrutural de prote´ınas

princi-palmente em classes e dobras, de acordo com o banco de dados SCOP (do inglês Structure Classification of Protein) (Murzin et al. 1995). Esta disserta¸cão trata a classifica¸cão de prote´ınas em classes estruturais, conforme o SCOP.

De acordo com a classiﬁca¸c˜ao do banco de dados SCOP e com a estrutura espacial

apresentada pelas prote´ınas, elas podem ser catalogadas em sete diferentes classes,

repre-sentadas por all-α, all-β, α/β, α+β, small, multi-domain proteins (α and β) e membrane and cell surface proteins and peptides. As principais classes estruturais que estão presentes em todos os trabalhos de classifica¸cão estrutural de prote´ınas de acordo com o banco de

dados SCOP (all-α,all-β, α/β e α+β) ser˜ao apresentadas mais adiante.

Essa classifica¸cão, como já comentado, é espec´ıfica do banco de dados SCOP. Portanto,

antes de se entrar em detalhes em rela¸cão às principais classes estruturais de prote´ınas, será

(34)

2.3. CLASSIFICAC¸ ˜AO ESTRUTURAL 19

especificamente, sobre banco de dados de prote´ınas, dentre eles, o SCOP, cuja classifica¸cão

hierárquica é usada não apenas neste trabalho, mas na maioria dos trabalhos dedicados à

classiﬁca¸c˜ao estrutural de prote´ınas (Bologna and Appel 2002; Ding and Dubchak 2001; Pal

and Chakraborty 2003; Huang et al. 2003; Chinnasamy, Sung, and Mittal 2004).

2.3.1 Bancos de Dados Biol´

ogicos

De maneira geral, os bancos de dados biológicos podem ser classificados em primários,

se-cundários e compostos (Tsunoda 2005). Um banco de dados primário contém informa¸cão

sobre a seqüência de aminoácidos (ou bases nucléicas) componentes da prote´ına (ou DNA).

Exemplos desses são: PDB,Swiss-ProteGenBank. Um banco de dados secundário contém dados derivados do banco de dados primário acrescidos de outras informa¸cões, como por

exemplo: seqüência conservada, classifica¸cões e s´ıtios ativos. Exemplos desses bancos são:

SCOP, CATH, PROSITE e eMOTIF. Os bancos de dados compostos, por sua vez,

ar-mazenam dados de v´arias fontes prim´arias diferentes.

O PDB (do inglês Protein Data Bank) (Abola et al. 1997) é um repositório interna-cional de dados públicos de estruturas tridimensionais de macromoléculas biológicas. Seu

conteúdo é originado de cristalografia de raios X e experimentos de RMN. Os principais objetivos do PDB são (Tsunoda 2005): permitir a localiza¸cão de estruturas de interesse,

fornecer um portal para informa¸c˜oes adicionais sobre macromol´eculas na Internet, manter

uma base de dados atualizada para pesquisadores e divulgar gratuitamente informa¸c˜oes

sobre as macromol´eculas biol´ogicas.

Um dos bancos de dados secundários originados do PDB é o CATH (do inglês Class, Architecture, Topology, and Homologous superfamily) (Orengo et al. 1997), que permite a análise das estruturas protéicas através de uma classifica¸cão hierárquica em dom´ınios

realizada sobre a estrutura secundária. Esta base de dados faz a classifica¸cão da estrutura

das prote´ınas em quatro n´ıveis: classe, arquitetura, topologia e super-fam´ılias. No n´ıvel

hierárquico “classe”, as prote´ınas são classificadas em três grandes categorias: mainly-α, mainly-β e α-β. Nesta última classe, são inclu´ıdas as estruturasα/β e α+β.

(35)

et al. 1995), que fornece uma descri¸cão detalhada de rela¸cões evolucionárias e estruturais

entre todas as prote´ınas com estruturas conhecidas. O objetivo do SCOP ´e realizar uma

classifica¸cão estrutural e não funcional. A classifica¸cão de prote´ınas no SCOP é, em sua

maioria, executada manualmente ou de modo semi-autom´atico, tornando-se uma tarefa

complexa e que leva uma grande quantidade de tempo. Em sua ´ultima vers˜ao, SCOP

introduziu caracter´ısticas que permitiram um gerenciamento mais r´ıgido e um aumento do

n´umero de estruturas experimentais de projetos de genoma estrutural (Tsunoda 2005).

O banco de dados SCOP ´e dividido em quatro n´ıveis hier´arquicos: classe, dobra (fold),

super-fam´ılia e fam´ılia. No n´ıvel “classe”, as prote´ınas podem ser catalogadas, como j´a

mencionado anteriormente, em sete diferentes categorias: all-α, all-β, α/β, α+β, small, multi-domain proteins (αandβ) emembrane and cell surface proteins and peptides. Cada uma dessas classes apresenta um grande conjunto de dobras que as caracteriza e permite

classificar as prote´ınas com um maior n´ıvel de detalhes em rela¸cão às estruturas que

apre-sentam. As dobras, por sua vez, podem ser classiﬁcadas em diferentes super-fam´ılias e estas,

em v´arias fam´ılias.

2.3.2 Classe

all-

α

As prote´ınas pertencentes à classe estruturalall-αsão formadas quase exclusivamente porα -hélices, com eventuaisβ-folhas localizadas na periferia da prote´ına. A hemoglobina humana, apresentada na Figura 2.9 (Se¸cão 2.2.4), é um exemplo de uma prote´ına da classeall-α.

S˜ao classiﬁcadas como da classeall-αaproximadamente 220 dobras diferentes de prote´ı-nas, dentre as quais podem ser citadas: Globin-like, Cytochrome c, DNA-binding 3-helical bundle, 4-helical up and down bundle, 4-helical cytokines eEF hand-like.

2.3.3 Classe

all-

β

(36)

2.3. CLASSIFICAC¸ ˜AO ESTRUTURAL 21

Figura 2.10: Prote´ına da classeall-β, em estereoscopia

Como exemplo de dobras de prote´ınas que pertencem `a classeall-β, dentre as 144 exis-tentes, podem-se citar: Immunoglobin-likeβ-sandwich,Cupredoxin-like,Viral coat & capsid proteins, Concanavalin A like lectins/glucanases, SH3-like barrel, OB-fold eβ-trefoil.

2.3.4 Classe

α

/

β

As prote´ınas pertencentes à classeα/βapresentam uma alternância acentuada deα-hélices e β-folhas ao longo da seqüência, dispostas de tal forma que asβ-folhas, tipicamente paralelas, formam um aglomerado central rodeado porα-hélices. A Figura 2.11 (retirada de (Silva 1999)) representa uma prote´ına da classe α/β.

Alguns exemplos de dobras de prote´ınas (dentre, aproximadamente, 135 dobras

(37)

Figura 2.11: Prote´ına da classeα/β, em estereoscopia

2.3.5 Classe

α

+

β

A classe α+β inclui as prote´ınas que, sendo formadas por um número significativo de α-hélices e β-folhas, não são dominadas por nenhum desses padrões, nem apresentam a alternância observada na classeα/β. O dom´ınio B1 da prote´ına G, apresentado na Figura 2.7 (Se¸cão 2.2.3), pertence à classeα+β.

Constituem exemplos de dobras de prote´ınas (dentre as, aproximadamente, 270 dobras

diferentes) pertencentes `a classeα+β: β-grasp(Ubiquitin-like),Ferrodoxin-like, Lysozyme-like, Cysteine proteinases,LysM domain eDodecin subunit-like.

2.4 An´

alise Computacional

Como já comentado no Cap´ıtulo 1, o grande desafio da Bioinformática em Proteômica diz

respeito à predi¸cão teórica da estrutura 3D de prote´ınas. Do ponto de vista computacional, a

predi¸c˜ao da estrutura tridimensional de prote´ınas pode ser realizada de diferentes maneiras.

Dentre as quais, podem ser citadas:

• Homologia (Higgins and Taylor 2001): conhecida tamb´em por modelagem

compa-rativa, trata-se da compara¸cão entre seqüencias de prote´ınas. Este método usa uma

(38)

2.4. AN ´ALISE COMPUTACIONAL 23

prote´ına com seq¨uˆencia similar. Estas duas prote´ınas com alto n´ıvel de similaridade

entre suas seqüencias são consideradas homólogas, ou seja, prote´ınas que derivam de

uma prote´ına ancestral comum e que sofreram mudan¸cas devido a fatores relacionados

`

a evolu¸cão. Elas podem exercer a mesma fun¸cão, ainda que encontradas em espécies

diferentes, ou podem exercer fun¸c˜oes diferentes, embora mantenham informa¸c˜oes

so-bre o relacionamento original.

• Threading (Akutsu et al. 2003): t´ecnica baseada na compara¸c˜ao de prote´ına, para a

qual se deseja obter a estrutura, com modelos descritivos dos dobramentos de prote´ınas

homólogas. Nesses modelos, são descritas, por exemplo: a distância entre os res´ıduos

de amino´acidos, a estrutura secund´aria de cada fragmento e as caracter´ısticas

f´ısico-qu´ımicas de cada res´ıduo de amino´acido.

• Ab Initio (Bonneau et al. 2001): m´etodo para a previs˜ao da estrutura 3D de uma

prote´ına sem a utiliza¸c˜ao de informa¸c˜ao estrutural de outras prote´ınas para

com-para¸cão. Os poucos programas atualmente existentes que utilizam este método têm

muito a melhorar para que possam ser aceitos pela comunidade cient´ıﬁca. Por esta

raz˜ao, prever uma estrutura tridimensional de prote´ına na total ausˆencia de homologia

continua sendo um problema considerado sem solu¸c˜ao.

Esses m´etodos destinam-se a encontrar diretamente a estrutura tridimensional da

prote´ı-na. No entanto, devido a elevada complexidade desta tarefa, ela vem sendo, normalmente,

realizada em etapas:

• 1a_{¯ etapa}: o passo inicial na predi¸c˜ao da estrutura 3D de uma prote´ına ´e, em geral,

a predi¸cão da estrutura secundária, ou seja, a localiza¸cão na seqüência protéica de

subestruturas comuns, como as α-h´elices eβ-folhas (Pollastri et al. 2002).

• 2a_{¯ etapa}: outro passo importante ´e a descoberta de semelhan¸cas entre conforma¸c˜oes

protéicas (classifica¸cão estrutural de prote´ınas). Tais similaridades podem ser

eviden-ciadas atrav´es da busca por padr˜oes estruturais que podem, por exemplo, caracterizar

(39)

O foco deste trabalho ´e a abordagem da 2a_{¯ etapa, ou seja, a an´}alise estrutural das

prote´ınas para se buscar padrões comuns na estrutura protéica, possibilitando a classifica¸cão

da prote´ına no grupo com um padrão caracter´ıstico. Nesta disserta¸cão, isso é feito através

da aplica¸c˜ao de m´etodos de AM.

Como não existe uma rela¸cão direta entre a seqüência e a estrutura espacial da prote´ına,

muita aten¸c˜ao tem-se dado a t´ecnicas de AM, capazes de aprender automaticamente a partir

de grandes volumes de dados, para classiﬁcar as prote´ınas a partir de propriedades (obtidas

das estruturas prim´arias) previamente conhecidas. Recentemente, as ferramentas de AM

vêm sendo usadas pela maior parte das pesquisas para a classifica¸cão de prote´ınas através

da an´alise estrutural (Tan, Gilbert, and Deville 2003).

No tipo de abordagem apresentado na 2a_{¯ etapa, busca-se encontrar, freq¨}uentemente,

representa¸cões de padrões de dobramento que facilitem a determina¸cão da rela¸cão entre as

topologias e fun¸cões das prote´ınas (Guimarães and Melo 2003). A solu¸cão do problema de

classifica¸cão estrutural de prote´ınas é feita normalmente em dois n´ıveis diferentes, tendo em

vista que dobras de prote´ınas são uma subclassifica¸cão das classes estruturais, e a maioria

dos trabalhos de classiﬁca¸c˜ao estrutural se restringe a essas duas poss´ıveis categorias (classe

e dobra) (Okun 2004).

No n´ıvel um, no reconhecimento de dobras de prote´ınas, uma prote´ına ´e classiﬁcada

em uma das poss´ıveis dobras, enquanto que no n´ıvel dois, no reconhecimento de classes

estruturais de prote´ınas, ela ´e atribu´ıda a uma das classes estruturais em que as dobras s˜ao

catalogadas. A classiﬁca¸c˜ao pode ser feita em um desses n´ıveis ou em ambos os n´ıveis. Neste

´

ultimo caso, a classifica¸cão pode ou não ser hierárquica. Sendo hierárquica, os classificadores

de n´ıvel um empregam as sa´ıdas dos classiﬁcadores de n´ıvel dois. Isso signiﬁca que os

classificadores de n´ıvel um não são treinados para predizer todas as dobras poss´ıveis de

prote´ınas, mas somente aquelas que pertencem `a classe estrutural predita no segundo n´ıvel

de classiﬁca¸c˜ao (Huang, Lin, and Pal 2003).

Cada um desses classificadores pode ser obtido com a aplica¸cão de um dos vários

(40)

2.5. TRABALHOS RELACIONADOS 25

das tendências atuais na classifica¸cão estrutural de prote´ınas é o uso de Redes Neurais

Arti-ﬁciais (RNA) e M´aquinas de Vetores Suporte (SVM) como algoritmos de aprendizado (Ding

and Dubchak 2001; Cai et al. 2001; Huang et al. 2003; Markowetz, Edler, and Vingron 2003;

Chung et al. 2003; Pal and Chakraborty 2003). Al´em disso, esses classiﬁcadores podem ser

resultado da combina¸cão de m classificadores independentes, usando ou não o mesmo al-goritmo de AM, originando os chamados sistemas de multiclassifica¸cão, que é atualmente

uma das principais ´areas de pesquisa em AM (Tan and Gilbert 2003).

A classifica¸cão automática de prote´ınas em dobras ou classes estruturais com técnicas

de AM é feita através de propriedades derivadas da estrutura primária das prote´ınas.

Nor-malmente, são usadas as seguintes seis propriedades extra´ıdas de suas seqüências (Ding and

Dubchak 2001): composi¸cão de aminoácidos, predi¸cão da estrutura secundária, polaridade,

volume de van der Walls, polarizabilidade e hidrofobicidade. Cada propriedade ´e

represen-tada por um vetor denatributos cont´ınuos (n≥1). Uma vez que a eficiência de técnicas de AM depende, em grande parte, da qualidade dos dados considerados durante o treinamento,

h´a pesquisas dedicadas ao estudo para se determinar quais das propriedades anteriormente

citadas favorecem mais o desempenho dos m´etodos utilizados (Huang, Lin, and Pal 2003;

Pal and Chakraborty 2003; Huang et al. 2003).

2.5 Trabalhos Relacionados

Levitt and Chothia (1976) foram uns dos primeiros pesquisadores a realizar uma

classi-fica¸cão de prote´ınas baseada em sua estrutura. Com base na observa¸cão visual da sucessão

de padr˜oes estruturais na cadeia polipept´ıdica, dividiram um conjunto de prote´ınas

globu-lares em quatro classes estruturais distintas, com designa¸cões semelhantes, mas defini¸cões

ligeiramente diferentes das que se tem hoje. Com o passar do tempo, esse assunto foi se

tornando foco da aten¸c˜ao de muitos pesquisadores (Nakashima, Nishikawa, and Ooi 1986;

Chou 1989; Kneller, Cohen, and Langridge 1990; Mitchie, Oregon, and Thomton 1996),

que contribu´ıram para a forma¸c˜ao das bases de dados que atualmente s˜ao usadas para a

(41)

Duas d´ecadas depois, Dubchak et al. (1999) formaram uma base de dados, a partir dos

bancos de dados PDB e SCOP, para a classiﬁca¸c˜ao estrutural de prote´ınas, e empregaram

RNA na classiﬁca¸c˜ao de prote´ınas em dobras. Ding and Dubchak (2001) realizaram uma

modiﬁca¸c˜ao na base de dados de Dubchak et al. (1999) e formaram uma nova base de dados,

que se popularizou e passou a ser usada pela maioria dos trabalhos seguintes relacionados ao

problema de classiﬁca¸c˜ao estrutural de prote´ınas (dispon´ıvel em http://www.nersc.gov/

~cding/protein/). Esta base de dados foi formada com 698 prote´ınas, representadas por

vetores de propriedades apresentando um total de 126 atributos. Nesta base, duas prote´ınas

não têm mais do que 35% de similaridade entre suas seqüências.

Assim como Dubchak et al. (1999), v´arios outros pesquisadores consideraram o problema

de classiﬁca¸c˜ao estrutural de prote´ınas apenas no n´ıvel um, no reconhecimento de dobras de

prote´ınas. Ding and Dubchak (2001) classiﬁcaram as prote´ınas em 27 dobras usando SVM e

RNA com três métodos de multiclassifica¸cão de duas classes (“um-contra-outros”, “unique

-um-contra-outros” e “todos-contra-todos”). Nesse trabalho, foi utilizado um grande n´umero

de classificadores e introduzido o método SVM ao problema de classifica¸cão de

prote´ı-nas. Bologna and Appel (2002) usaram um sistema multiclassiﬁcador de redesPerceptrons Multi-Layer Interpretable Discretized four-layer (DIMLP), em que cada rede, ao contr´ario de Ding and Dubchak (2001), aprende todas as dobras de prote´ınas simultaneamente. Para

combinar as sa´ıdas das redes, os sistemas de multiclassiﬁca¸c˜ao Bagging e Arcing foram empregados. Edler, Grassmann, and Suhai (2001), por sua vez, com uma base de dados

diferente da utilizada nos trabalhos anteriores, contendo apenas 268 prote´ınas, realizaram

um estudo estat´ıstico baseado em regress˜ao log´ıstica e modelos aditivos na predi¸c˜ao de

dobras de prote´ınas.

Diferentemente desses pesquisadores, outros trabalhos se detiveram à classifica¸cão de

prote´ınas em classes estruturais, ou seja, ao n´ıvel dois do problema de classiﬁca¸c˜ao estrutural

de prote´ınas. Dentre eles, destaca-se Tan, Gilbert, and Deville (2003), que motivados pela

discuss˜ao apresentada no trabalho de Ding and Dubchak (2001) sobre o desempenho dos

classiﬁcadores em fun¸c˜ao do desbalanceamento de classes e da elevada quantidade de

(42)

Knowledge for Imbalance Sample Sets) e o aplicaram a uma versão modificada da base de dados de Ding and Dubchak (2001) com o objetivo de classificar as prote´ınas em cinco

classes estruturais (all-α, all-β, α/β, α+β esmall). A idéia do eKISS é combinar, através de regras, a sa´ıda dos classificadores gerados pelo PART (Frank and Witten 1998), com as

abordagens “um-contra-outros” e “todos-contra-todos”. Eles compararam os resultados do

eKISS com os do PART e veriﬁcaram uma boa aplicabilidade do sistema proposto.

Tamb´em classiﬁcando as prote´ınas apenas em classes estruturais, podem ser citados os

trabalhos de: Cai et al. (2001), que usaram SVM para classiﬁcar as prote´ınas nas quatro

classes estruturais principais (all-α, all-β, α/β eα+β) e compararam os resultados obtidos com os da RNA de um de seus trabalhos anteriores (Cai and Zhou 2000); e Markowetz, Edler,

and Vingron (2003), que usaram SVM com kernel gaussiano e v´arioskernels polinomiais para classiﬁcar as prote´ınas nas mesmas classes. Markowetz, Edler, and Vingron (2003)

usaram, no entanto, uma base de dados diferente, elaborada por eles pr´oprios (dispon´ıvel

em http://www.dkfz.de/biostatistics/protein/gsme97.html).

A maioria das pesquisas abordam, na verdade, a classiﬁca¸c˜ao estrutural de prote´ınas

em sua plenitude, isto ´e, nos dois n´ıveis em que o problema ´e comumente dividido. Pal

and Chakraborty (2003) realizaram uma classiﬁca¸c˜ao independente em cada um dos dois

n´ıveis de classiﬁca¸c˜ao. Treinaram RNA do tipo MLP e Radial Basis Function Network (RBFN) com uma base de dados que continha vetores com 400 atributos, obtidos apenas

da propriedade de hidrofobicidade dos amino´acidos. Tamb´em preocupados em usar na base

de dados apenas as propriedades que mais favorecem o desempenho dos m´etodos de AM

(do total de seis propriedades normalmente utilizadas), Huang et al. (2003) usaram uma

gate functionpara selecionar as propriedades protéicas consideradas relevantes que deveriam integrar a base de dados para o aprendizado dasgated RNAempregadas. Também foi usada, assim como no trabalho de Pal and Chakraborty (2003), uma classifica¸cão independente em

cada n´ıvel.

Chinnasamy, Sung, and Mittal (2004) realizaram um pr´e-processamento na base de

dados de Markowetz, Edler, and Vingron (2003) e de Ding and Dubchak (2001) atrav´es

(43)

formadas pela sele¸cão apenas das propriedades composi¸cão de aminoácidos e predi¸cão da

estrutura secund´aria. Apresentaram o sistema BAYESPROT, que se baseia no uso das

Tree-Augmented Networks (TAN), criadas a partir da teoria da aprendizagem bayesiana, para a classiﬁca¸c˜ao estrutural de prote´ınas. Assim como Okun (2004), que empregou o

algoritmoK-Local Hyperplane Distance Nearest Neighbor algorithm(HKNN), duas tarefas foram realizadas independentemente: 1) a classiﬁca¸c˜ao de prote´ınas em 27 dobras mais

significativas e 2) a classifica¸cão de prote´ınas nas quatro classes estruturais principais.

De modo um pouco diferente das abordagens anteriores, Huang, Lin, and Pal (2003) e

Chung et al. (2003) realizaram uma classifica¸cão hierárquica entre os n´ıveis um e dois da

classifica¸cão estrutural de prote´ınas. Huang, Lin, and Pal (2003) propuseram uma Hierar-chical Learning Architecture (HLA). A arquitetura proposta permite que tanto o método RNA como o SVM sejam empregados. Chung et al. (2003) usaram RNA e SVM como

clas-siﬁcadores de um sistema de dois n´ıveis. Modelos simples de RNA (MLP, RBFN eGeneral Regression Neural Network - GRNN) com uma ´unica camada escondida foram usados.

Discuss˜oes

Pode-se observar que a maioria dos trabalhos faz uso da base de dados criada por Ding

and Dubchak (2001), com algumas exce¸cões em rela¸cão à dimensionalidade dos vetores

de atributos e `a quantidade de prote´ınas empregadas. Tan, Gilbert, and Deville (2003),

por sua vez, sugeriram uma mudan¸ca maior nesta base de dados, realizando nela alguns

aperfei¸coamentos (maiores detalhes são expostos na Se¸cão 4.1). Nesta disserta¸cão, é usada

a base de dados de Tan, Gilbert, and Deville (2003), por ela apresentar, aparentemente,

menos imprecis˜oes.

As técnicas de AM estão presentes em quase todas as cita¸cões encontradas na literatura

relativas à classifica¸cão estrutural de prote´ınas. Dentre os trabalhos encontrados, ressalta-se

a maior freqüência do emprego de RNA e SVM, sendo, inclusive, utilizados na composi¸cão

de sistemas de multiclassifica¸cão homogênea. O único trabalho encontrado que faz uso da

multiclassifica¸cão heterogênea é o de Tan, Gilbert, and Deville (2003), que combina os

(44)

de AM, sem se restringir a RNA e SVM. Ao contr´ario, busca-se empregar algoritmos de

AM variados e até mesmo de que não se tem conhecimento de já terem sido usados na

solu¸cão deste problema, como Árvore de Decisão (AD) e diferentes métodos de

multiclassi-fica¸cão heterogênea. Outro estudo feito neste trabalho, sem referência anterior, diz respeito

à análise da aplica¸cão de técnicas de pré-processamento de dados, direcionadas à redu¸cão

do desbalanceamento da quantidade de instˆancias nas classes, com o intuito de aumentar o

desempenho dos métodos de AM na classifica¸cão estrutural de prote´ınas.

Como mencionado anteriormente, o problema pode ser abordado em dois n´ıveis

diferen-tes. No n´ıvel um, as prote´ınas s˜ao classiﬁcadas em dobras e no outro, em classes estruturais.

A maioria dos trabalhos considerou, em seus experimentos, esses dois n´ıveis citados, seja

através de uma classifica¸cão hierárquica ou independente entre os n´ıveis. Porém, alguns

pesquisadores, como Ding and Dubchak (2001) e Markowetz, Edler, and Vingron (2003),

focaram suas pesquisas apenas no n´ıvel um e outros, como Cai et al. (2001) e Tan, Gilbert,

and Deville (2003) apenas no n´ıvel dois. Neste trabalho, assim como nos ´ultimos citados,

a pesquisa ´e restrita ao n´ıvel dois (reconhecimento de classes estruturais), com o intuito

de abordar mais profundamente este filtro de classifica¸cão e garantir poss´ıveis melhores

resultados em trabalhos futuros de classiﬁca¸c˜ao de prote´ınas no n´ıvel um.

A acurácia global dos classificadores foi usada como métrica em quase todos os trabalhos,

a menos de Tan, Gilbert, and Deville (2003) que apresentou os resultados em termos de F-measure (Rijsbergen 1979) e de curvas ROC (Provost, Fawcett, and Kohavi 1998). Apesar de a mesma m´etrica ser usada pela maioria das pesquisas, houve uma grande variabilidade

na metodologia aplicada durante a realiza¸c˜ao dos experimentos, como por exemplo: alguns

trabalhos empregaram, como forma de valida¸cão, o k-fold cross validation (com valores diferentes parak) enquanto que outros, oholdout. Por causa dessas diferentes metodologias empregadas, não é poss´ıvel realizar uma justa compara¸cão entre os resultados obtidos nos

(45)

Aprendizado de M´

aquina

Este cap´ıtulo descreve caracter´ısticas e funcionalidades b´asicas de m´etodos computacionais

utilizados nesta disserta¸c˜ao. A Se¸c˜ao 3.1 apresenta conceitos gerais de Aprendizado de

Máquina (AM). A Se¸cão 3.2 descreve os diferentes sistemas de multiclassifica¸cão homogênea

(Bagging eBoosting) e heterogênea (Voting,Stacking eStackingC) empregados neste tra-balho. Na Se¸cão 3.3, é discutida a importância de pré-processamento de dados e são descritas

as principais t´ecnicas de under-sampling.

3.1 Introdu¸

c˜

ao

Aprendizado de M´aquina (AM) estuda como construir algoritmos que melhoram o pr´oprio

desempenho em alguma tarefa por meio de experiˆencia (Mitchell 1997). Aprender, nesse

contexto, pode ser deﬁnido (para situa¸c˜oes em que o desempenho em alguma tarefa pode

ser medido) como a seguir: diz-se que um programa computacional aprende a partir da

experiênciaE, em rela¸cão a uma classe de tarefasT, com medida de desempenhoD, se seu desempenho nas tarefasT, medida por D, melhora com a experiência E (Mitchell 1997).

A maioria dos m´etodos de AM adquirem experiˆencia estritamente a partir dos dados

conhecidos do problema. Assim, melhor ser´a o desempenho dos m´etodos de AM quanto

melhor for a qualidade dos dados (Batista 2003). Devido aos dados dispon´ıveis, diversos

aspectos podem inﬂuenciar na performance de um sistema de aprendizado. Em bases de

dados reais, dois desses aspectos est˜ao relacionados com a presen¸ca de valores desconhecidos,

(46)

3.1. INTRODUC¸ ˜AO 31

pois distor¸c˜oes podem ser introduzidas no conhecimento induzido, e com a diferen¸ca entre o

n´umero de instˆancias que pertencem a diferentes classes, uma vez que quando esta diferen¸ca

´e grande, sistemas de AM podem ter diﬁculdade em aprender o conceito relacionado a classe

minorit´aria (Batista, Prati, and Monard 2004). Tais problemas podem ser minimizados, por

exemplo, com a aplica¸cão de técnicas de pré-processamento de dados, vistas na Se¸cão 3.3.

3.1.1 Paradigmas de AM

T´ecnicas de AM podem ser divididas em aprendizado supervisionado e aprendizado n˜ao

supervisionado, de acordo com os dados dispon´ıveis para a realiza¸c˜ao do processo de indu¸c˜ao.

No aprendizado supervisionado, o indutor recebe um conjunto de instˆancias, cada

instˆan-cia sendo formada por um conjunto de atributos de entrada e um conjunto de atributos

de sa´ıda (r´otulos) antes do processo de aprendizado (Souto et al. 2003). O objetivo do

algoritmo de aprendizado ´e construir um classiﬁcador que possa determinar corretamente a

classe de novas instâncias ainda não rotuladas. Como exemplos de técnicas de aprendizado

supervisionado podem ser citados, dentre outros: redes neurais artificiais do tipomultilayer perceptroncombackpropagation, máquinas de vetores de suporte e árvores de decisão.

Por outro lado, o aprendizado n˜ao supervisionado ´e realizado quando, para cada instˆ

an-cia, apenas os atributos de entrada est˜ao dispon´ıveis. Esse tipo de aprendizado ´e utilizado

quando o objetivo é encontrar, em um conjunto de dados, padrões ou tendências

(agru-pamentos ou clusters) que auxiliem o entendimento desses dados (Costa 1999). Como exemplos de t´ecnicas de aprendizado n˜ao supervisionado podem ser citados, dentre outros:

redes neurais do tipo mapa auto-organizáveis (SOM),k-médias e agrupamento hierárquico. Para o reconhecimento de classes estruturais de prote´ınas, técnicas de aprendizado

su-pervisionado s˜ao utilizadas neste trabalho. Na solu¸c˜ao deste problema, os indutores recebem

como entrada, no processo de aprendizado, instˆancias formadas por um conjunto de vetores

de atributos, derivados da estrutura prim´aria da prote´ına, e rotuladas pela classe estrutural

a que se referem.

Foram selecionados, para serem empregadas na gera¸c˜ao dos classiﬁcadores base dos