• Nenhum resultado encontrado

Aplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínas

N/A
N/A
Protected

Academic year: 2017

Share "Aplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínas"

Copied!
116
0
0

Texto

(1)

Centro de Tecnologia

Programa de P´

os-Gradua¸

ao em Engenharia El´

etrica

Aplica¸

ao de T´

ecnicas de Aprendizado de M´

aquina no

Reconhecimento de Classes Estruturais de Prote´ınas

Valnaide Gomes Bittencourt

(2)

Universidade Federal do Rio Grande do Norte

Centro de Tecnologia

Programa de P´

os-Gradua¸c˜

ao em Engenharia El´

etrica

APLICAC

¸ ˜

AO DE T´

ECNICAS DE APRENDIZADO DE M ´

AQUINA NO

RECONHECIMENTO DE CLASSES ESTRUTURAIS DE PROTE´INAS

Valnaide Gomes Bittencourt

Disserta¸c˜ao submetida ao Programa de P´

os-Gradua¸c˜ao em Engenharia El´etrica do Centro

de Tecnologia da Universidade Federal do Rio

Grande do Norte, como parte dos requisitos

necess´arios para obten¸c˜ao do grau de Mestre em

Ciˆencias.

Orientador: Prof. Dr. Jos´e Alfredo Ferreira Costa

Co-orientador: Prof. Dr. Marc´ılio Carlos Pereira de Souto

Natal, Novembro de 2005

(3)

PROGRAMA DE P ´OS-GRADUAC¸ ˜AO EM ENGENHARIA EL´ETRICA

Aprovada em 25 de Novembro de 2005 pela comiss˜ao examinadora,

formada pelos seguintes membros:

Prof. Dr. Jos´e Alfredo Ferreira Costa (Orientador) Departamento de Engenharia El´etrica - UFRN

Prof. Dr. Marc´ılio Carlos Pereira de Souto (Co-Orientador) Departamento de Inform´atica e Matem´atica Aplicada - UFRN

Prof. Dr. Adri˜ao Duarte D´oria Neto (Examinador Interno) Departamento de Engenharia de Computa¸c˜ao e Automa¸c˜ao - UFRN

Profa. Dra. Teresa Bernarda Ludermir (Examinador Externo) Centro de Inform´atica - UFPE

(4)

Agradecimentos

A Deus, por mais esta oportunidade em minha vida, acompanhando bem de perto todos os meus passos; e a Nossa Senhora, por sempre me cobrir com seu manto de prote¸c˜ao, dando-me paciˆencia e esperan¸ca necess´arias para a conclus˜ao deste trabalho.

Ao professor Jos´e Alfredo, pela confian¸ca em mim depositada quando aceitou ser o meu orien-tador, pela liberdade que me deu na escolha do tema abordado nesta disserta¸c˜ao, pelo entusiasmo constantemente demonstrado em nossas conversas e pelo apoio sempre concedido.

Ao professor Marc´ılio, por ter se mostrado dispon´ıvel para me ajudar mesmo antes de se tornar meu co-orientador, pela defini¸c˜ao da abordagem do trabalho, pelos constantes ensinamentos, dis-cuss˜oes e direcionamentos, pela dedica¸c˜ao e grande exemplo de ´etica, responsabilidade e competˆencia. Aos meus pais, S´ergio e Lourdinha, pelo incentivo e dedica¸c˜ao, pela maneira carinhosa e com-preensiva com que sempre me ap´oiam e pela educa¸c˜ao e amor incondicional; irm˜aos, Hegel e H´elcio, pela forte amizade e amor, pelo est´ımulo e apoio sempre a mim proporcionados; e cunhada, Greicy, pelo carinho, incentivo e por partilhar comigo a experiˆencia de se fazer uma p´os-gradua¸c˜ao.

Ao meu noivo, Silvio, pelo constante companheirismo, lealdade e amor, pela disponibilidade irrestrita, apesar de sua agenda lotada, e pela ativa presen¸ca ao longo da elabora¸c˜ao desta disserta¸c˜ao. Aos meus amigos mais pr´oximos, cuja cita¸c˜ao sabem ser para eles direcionada, pela afei¸c˜ao e considera¸c˜ao de sempre.

Aos novos colegas e amigos do mestrado, pelos momentos agrad´aveis juntos, pela freq¨uente companhia em almo¸cos, pela descontra¸c˜ao e partilha de sentimentos.

`

A CAPES, pelo apoio financeiro; ao PROMETH, na pessoa do professor Dario, a quem tamb´em agrade¸co pela constante preocupa¸c˜ao e interesse em minha vida n˜ao apenas profissional, e ao LA-BILIC, pelo apoio t´ecnico.

Por fim, agrade¸co a todas as pessoas do meu conv´ıvio, que, de uma forma ou de outra, con-tribu´ıram para o desenvolvimento deste trabalho.

(5)

Rm 12,12

(6)

Resumo

Atualmente, a classifica¸c˜ao estrutural de prote´ınas, que diz respeito `a inferˆencia de padr˜oes

em sua conforma¸c˜ao 3D, ´e um dos principais problemas em aberto da Biologia Molecular.

Esse problema vem recebendo a aten¸c˜ao de muitos pesquisadores na ´area de Bioinform´atica

pelo fato de as fun¸c˜oes das prote´ınas estarem intrinsecamente relacionadas `as suas diferentes

conforma¸c˜oes espaciais, que s˜ao de dif´ıcil obten¸c˜ao experimental em laborat´orio.

Considerando a grande diferen¸ca entre o n´umero de seq¨uˆencias de prote´ınas conhecidas e

o n´umero de estruturas tridimensionais determinadas experimentalmente, ´e alta a demanda

por t´ecnicas automatizadas de classifica¸c˜ao estrutural de prote´ınas. Nesse contexto, as

ferramentas computacionais, principalmente as t´ecnicas de Aprendizado de M´aquina (AM),

tornaram-se alternativas essenciais para tratar esse problema.

Neste trabalho, t´ecnicas de AM s˜ao empregadas no reconhecimento de classes

estrutu-rais de prote´ınas: ´Arvore de Decis˜ao, k-Vizinhos Mais Pr´oximos, Na¨ıve Bayes, M´aquinas de Vetores Suporte e Redes Neurais Artificiais. Esses m´etodos foram escolhidos por

re-presentarem diferentes paradigmas de aprendizado e serem bastante citados na literatura.

Visando conseguir uma melhoria de desempenho na solu¸c˜ao do problema abordado, sistemas

de multiclassifica¸c˜ao homogˆenea (Bagging e Boosting) e heterogˆenea (Voting, Stacking e StackingC) s˜ao aplicados nesta pesquisa, usando como base as t´ecnicas de AM anterior-mente mencionadas. Al´em disso, pelo fato de a base de dados de prote´ınas considerada

neste trabalho apresentar o problema de classes desbalanceadas, t´ecnicas artificiais de

ba-lanceamento de classes (Under-sampling Aleat´orio, Tomek Links, CNN, NCL e OSS) s˜ao utilizadas a fim de minimizar esse problema e melhorar o desempenho dos classificadores.

(7)

Para a avalia¸c˜ao dos m´etodos de AM, um procedimento de valida¸c˜ao cruzada ´e

em-pregado, em que a acur´acia dos classificadores ´e medida atrav´es das m´edias da taxa de

classifica¸c˜ao incorreta nos conjuntos de testes independentes. Essas m´edias s˜ao

compara-das duas a duas pelo teste de hip´otese a fim de avaliar se h´a diferen¸ca estatisticamente

significativa entre elas.

Com os resultados obtidos, pode-se observar, entre os classificadores base, o

desempe-nho superior do m´etodo M´aquinas de Vetores Suporte. Os sistemas de multiclassifica¸c˜ao

(homogˆenea e heterogˆenea), por sua vez, apresentaram, em geral, uma acur´acia superior ou

similar a dos classificadores usados como base, destacando-se oBoosting que usou ´Arvore de Decis˜ao em sua forma¸c˜ao e oStackingC tendo como meta classificador a Regress˜ao Linear. O m´etodoVoting, apesar de sua simplicidade, tamb´em mostrou-se adequado para a solu¸c˜ao do problema considerado nesta disserta¸c˜ao. Em rela¸c˜ao `as t´ecnicas de balanceamento de

classes, n˜ao foram alcan¸cados melhores resultados de classifica¸c˜ao global com as bases de

dados obtidas com a aplica¸c˜ao de tais t´ecnicas. No entanto, foi poss´ıvel uma melhor

classi-fica¸c˜ao espec´ıfica da classe minorit´aria, de dif´ıcil aprendizado. A t´ecnica NCL foi a que se

(8)

Abstract

Nowadays, classifying proteins in structural classes, which concerns the inference of

pat-terns in their 3D conformation, is one of the most important open problems in Molecular

Biology. The main reason for this is that the function of a protein is intrinsically related to

its spatial conformation. However, such conformations are very difficult to be obtained

ex-perimentally in laboratory. Thus, this problem has drawn the attention of many researchers

in Bioinformatics.

Considering the great difference between the number of protein sequences already known

and the number of three-dimensional structures determined experimentally, the demand of

automated techniques for structural classification of proteins is very high. In this context,

computational tools, especially Machine Learning (ML) techniques, have become essential

to deal with this problem.

In this work, ML techniques are used in the recognition of protein structural classes:

Decision Trees,k-Nearest Neighbor, Na¨ıve Bayes, Support Vector Machine and Neural Net-works. These methods have been chosen because they represent different paradigms of

learning and have been widely used in the Bioinfornmatics literature. Aiming to obtain

an improvment in the performance of these techniques (individual classifiers),

homoge-neous (Bagging and Boosting) and heterogehomoge-neous (Voting, Stacking and StackingC)

multi-classification systems are used. Moreover, since the protein database used in this work

presents the problem of imbalanced classes, artificial techniques for class balance

(Under-sampling Random, Tomek Links, CNN, NCL and OSS) are used to minimize such a problem.

In order to evaluate the ML methods, a cross-validation procedure is applied, where

(9)

the accuracy of the classifiers is measured using the mean of classification error rate, on

independent test sets. These means are compared, two by two, by the hypothesis test

aiming to evaluate if there is, statistically, a significant difference between them.

With respect to the results obtained with the individual classifiers, Support Vector

Machine presented the best accuracy. In terms of the multi-classification systems

(homoge-neous and heteroge(homoge-neous), they showed, in general, a superior or similar performance when

compared to the one achieved by the individual classifiers used - especially Boosting with

Decision Tree and the StackingC with Linear Regression as meta classifier. The Voting

method, despite of its simplicity, has shown to be adequate for solving the problem

pre-sented in this work. The techniques for class balance, on the other hand, have not produced

a significant improvement in the global classification error. Nevertheless, the use of such

techniques did improve the classification error for the minority class. In this context, the

(10)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao . . . 1

1.2 Objetivos . . . 5

1.3 Organiza¸c˜ao da Disserta¸c˜ao . . . 6

2 Prote´ınas 7 2.1 Introdu¸c˜ao . . . 7

2.2 Estruturas de Prote´ına . . . 8

2.2.1 Estrutura Prim´aria . . . 8

2.2.2 Estrutura Secund´aria . . . 12

2.2.3 Estrutura Terci´aria . . . 14

2.2.4 Estrutura Quatern´aria . . . 17

2.3 Classifica¸c˜ao Estrutural . . . 18

2.3.1 Bancos de Dados Biol´ogicos . . . 19

2.3.2 Classe all-α . . . 20

2.3.3 Classe all-β . . . 20

2.3.4 Classe α/β . . . 21

2.3.5 Classe α+β . . . 22

2.4 An´alise Computacional . . . 22

2.5 Trabalhos Relacionados . . . 25

(11)

3 Aprendizado de M´aquina 30

3.1 Introdu¸c˜ao . . . 30

3.1.1 Paradigmas de AM . . . 31

3.1.2 Aprendizado Supervisionado . . . 32

3.2 Sistemas de Multiclassifica¸c˜ao . . . 34

3.2.1 Multiclassificadores Homogˆeneos . . . 36

3.2.2 Multiclassificadores Heterogˆeneos . . . 41

3.3 Pr´e-processamento de Dados . . . 46

4 M´etodos e Experimentos 54 4.1 Base de Dados . . . 54

4.2 Metodologia de Valida¸c˜ao . . . 57

4.2.1 Valida¸c˜ao Cruzada . . . 58

4.2.2 Teste de Hip´otese . . . 59

4.3 Experimentos . . . 61

5 Resultados 66 5.1 Classificadores base . . . 66

5.2 Multiclassificadores . . . 67

5.2.1 Multiclassificadores Homogˆeneos . . . 67

5.2.2 Multiclassificadores Heterogˆeneos . . . 68

5.2.3 Discuss˜oes . . . 70

5.3 Pr´e-processamento de Dados . . . 75

5.4 Considera¸c˜oes finais . . . 85

(12)

Lista de Figuras

2.1 Estrutura prim´aria de uma prote´ına . . . 8

2.2 Estrutura geral de um amino´acido . . . 9

2.3 Forma¸c˜ao de liga¸c˜oes pept´ıdicas e cadeia polipept´ıdica resultante . . . 11

2.4 Representa¸c˜oes da α-h´elice . . . 13

2.5 Representa¸c˜oes da β-folha mista . . . 14

2.6 Estrutura terci´aria de uma prote´ına da Gram-negativa . . . 16

2.7 Estrutura terci´aria, em estereoscopia . . . 16

2.8 Estruturas secund´aria e terci´aria, em estereoscopia . . . 17

2.9 Estrutura quatern´aria da hemoglobina humana . . . 18

2.10 Prote´ına da classeall-β, em estereoscopia . . . 21

2.11 Prote´ına da classeα/β, em estereoscopia . . . 22

3.1 Estrutura de sistemas de multiclassifica¸c˜ao . . . 35

3.2 Representa¸c˜ao do m´etodo Bagging . . . 37

3.3 Representa¸c˜ao do m´etodo AdaBoosting . . . 39

3.4 Representa¸c˜ao do m´etodo Stacking . . . 42

3.5 Representa¸c˜ao do m´etodo Stacking eStackingC . . . 45

3.6 Exemplo de dados com duas classes desbalanceadas . . . 49

5.1 Resumo dos resultados obtidos com os multiclassificadores homogˆeneos e seus respectivos classificadores base . . . 70

(13)

5.2 Resumo dos resultados obtidos com os multiclassificadores heterogˆeneos e

seus classificadores base . . . 71

5.3 Melhores resultados dos multiclassificadores homogˆeneos e heterogˆeneos . . 72

5.4 Resultados obtidos com a base de dados gerada com a t´ecnica NCL . . . 78

5.5 Resultados obtidos com as bases de dados original e as geradas com as t´ecnicas deunder-sampling . . . 80

5.6 Resultados obtidos para a classe minorit´aria . . . 81

5.7 Resultados obtidos para a classe majorit´aria . . . 81

5.8 M´edia de redu¸c˜ao erro na classe minorit´aria . . . 82

(14)

Lista de Tabelas

2.1 Nomenclatura e simbologia dos 20 amino´acidos que podem formar as prote´ınas 10

2.2 C´odigo gen´etico . . . 11

3.1 Representa¸c˜ao de uma matriz de confus˜ao . . . 33

4.1 As seis propriedades extra´ıdas da seq¨uˆencia de prote´ına . . . 55

4.2 Distribui¸c˜ao das prote´ınas nas classes estruturais . . . 55

4.3 Distribui¸c˜ao da quantidade de prote´ınas nas dobras e nas classes estruturais 57 5.1 Taxa de erro dos classificadores base (%) . . . 67

5.2 Taxa de erro dos m´etodos Bagging (%) . . . 67

5.3 Taxa de erro dos m´etodos Boosting (%) . . . 68

5.4 Taxa de erro do m´etodoStacking (%) . . . 68

5.5 Taxa de erro do m´etodoStackingC (%) . . . 69

5.6 Taxa de erro do m´etodoVoting (%) . . . 69

5.7 Matrizes de confus˜ao dos classificadores base . . . 74

5.8 Taxa de erro, por classe (%) . . . 75

5.9 Taxa de erro global para cada t´ecnica de under-samplig (%) . . . 75

5.10 Taxa de erro da classeα+β para cada t´ecnica deunder-samplig (%) . . . 76

5.11 Taxa de erro da classeα/β para cada t´ecnica de under-samplig (%) . . . . 76

5.12 Taxa de erro dos multiclassificadores com a base de dados originada pela t´ecnica NCL (%) . . . 77

5.13 Taxa de erro, por classe, com a t´ecnica NCL (%) . . . 78

(15)

5.14 Taxa de erro global e das classes minorit´aria (α+β) e majorit´aria (α/β) para a base de dados original (%) . . . 79

5.15 Matrizes de confus˜ao dos classificadores base com a base de dados gerada

(16)

Cap´ıtulo 1

Introdu¸

ao

1.1

Motiva¸

ao

A utiliza¸c˜ao de novas e eficientes t´ecnicas na an´alise de seq¨uˆencias de genomas vem sendo

respons´avel pelo consider´avel crescimento dos bancos de dados biol´ogicos dispon´ıveis

(Wa-terman 1995; Meidanis and Set´ubal 1997; Baldi and Brunak 2001). Esses dados necessitam

de m´etodos adequados de manipula¸c˜ao e an´alise para que possam ser utilizados de forma

mais efetiva pelos bi´ologos. A investiga¸c˜ao e aperfei¸coamento desses m´etodos ´e o grande

de-safio de uma nova ´area de pesquisa que surgiu na d´ecada de 90, acompanhando os projetos

genoma, chamada de Bioinform´atica ou Biologia Computacional (Souto et al. 2003).

A Bioinform´atica tem por objetivo o estudo e aplica¸c˜ao de t´ecnicas computacionais a

tarefas das mais diversas ´areas da Biologia, dentre elas, a Biologia Molecular (Lorena et al.

2002; Set´ubal 2003; Souto et al. 2003). Nesse contexto, a computa¸c˜ao pode ser aplicada na

resolu¸c˜ao de uma s´erie de problemas, tais como: compara¸c˜ao de seq¨uˆencias (DNA, RNA

e prote´ınas), montagem de fragmentos, reconhecimento de genes, identifica¸c˜ao e an´alise da

express˜ao de genes, reconstru¸c˜ao de ´arvores filogen´eticas e determina¸c˜ao da estrutura de

prote´ınas (Baldi and Brunak 2001; Set´ubal 2003; Souto et al. 2003).

Dentre esses problemas, a predi¸c˜ao te´orica da estrutura de prote´ınas ´e, atualmente, o

grande desafio da Bioinform´atica. O estudo relativo a este assunto vem caracterizando uma

nova fase para as pesquisas gen´eticas, denominada Proteˆomica (Guimar˜aes and Melo 2003),

que surgiu ap´os a finaliza¸c˜ao do seq¨uenciamento do genoma humano (Consortium 2001) e

(17)

de diversos outros organismos. O termo “Proteˆomica” envolve a identifica¸c˜ao de todas as

prote´ınas expressas pelo genoma bem como a determina¸c˜ao de suas fun¸c˜oes fisiol´ogicas e

patol´ogicas.

A fun¸c˜ao da prote´ına ´e intrinsecamente relacionada `a conforma¸c˜ao espacial (estrutura

tridimensional - 3D) que ela apresenta (Guimar˜aes and Melo 2003). Al´em disso, o

conhe-cimento da estrutura 3D da prote´ına ´e essencial para, por exemplo, o desenvolvimento de

novos medicamentos e m´etodos de diagn´ostico. Por´em, a identifica¸c˜ao dessa conforma¸c˜ao

espacial n˜ao ´e uma tarefa simples. Por exemplo, os m´etodos tradicionais de obten¸c˜ao da

es-trutura 3D de prote´ınas, tais como cristalografia de raiosX(Abola et al. 2000) e Ressonˆancia Magn´etica Nuclear (RMN) (G¨untert 2003), s˜ao muito caros, trabalhosos, demorados e tˆem

limita¸c˜oes pr´oprias (Chinnasamy, Sung, and Mittal 2004).

De fato, determinar a seq¨uˆencia de uma prote´ına ´e relativamente mais f´acil do que

determinar a sua estrutura 3D, o que leva a uma grande diferen¸ca entre o n´umero de

seq¨uˆencias e o n´umero de estruturas e fun¸c˜oes prot´eicas conhecidas (Nelson and Cox 2000).

A fim de diminuir esta disparidade, m´etodos computacionais s˜ao cada vez mais empregados.

Dessa forma, a identifica¸c˜ao automatizada da estrutura 3D da prote´ına tornou-se o foco mais

recente de pesquisa na ´area de Bioinform´atica (Mirkin and Ritter 1999).

Computacionalmente, destacam-se dois tipos de pesquisas na identifica¸c˜ao da estrutura

3D de uma prote´ına: a an´alise de seq¨uˆencia e a an´alise de estrutura (Guimar˜aes and Melo

2003). A modelagem de uma prote´ına atrav´es da an´alise de seq¨uencia baseia-se no conceito

de evolu¸c˜ao molecular. Isto ´e, parte-se do princ´ıpio de que a similaridade entre a seq¨uencia

de amino´acidos (estrutura prim´aria) de uma prote´ına da qual n˜ao se sabe a fun¸c˜ao e a

seq¨uencia de uma prote´ına cuja estrutura tridimensional ´e conhecida implica em similaridade

estrutural entre elas. Contudo, embora muitas das prote´ınas possuam um alto grau de

similaridade em termos de seq¨uencia de amino´acidos, elas podem n˜ao compartilhar da

mesma fun¸c˜ao. Por outro lado, duas prote´ınas podem ter um baixo grau de similaridade

e, entretanto, apresentarem fun¸c˜oes semelhantes (Okun 2004). A an´alise de estrutura, por

sua vez, diz respeito `a predi¸c˜ao da estrutura tridimensional de uma prote´ına a partir de sua

(18)

1.1. MOTIVAC¸ ˜AO 3

A inferˆencia da estrutura 3D da prote´ına com base apenas em sua seq¨uˆencia foi

demons-trado ser um problema NP-dif´ıcil (Guimar˜aes and Melo 2003). Devido a alta complexidade,

tal procedimento ´e dividido em uma s´erie de passos intermedi´arios, como por exemplo:

a predi¸c˜ao de estrutura secund´aria (Jones 1999; Petersen et al. 2000; Baldi and Brunak

2001; Pollastri et al. 2002; Guimar˜aes, Melo, and Cavalcanti 2003) e a classifica¸c˜ao

estru-tural (Bologna and Appel 2002; Ding and Dubchak 2001; Tan, Gilbert, and Deville 2003;

Huang et al. 2003; Okun 2004; Chinnasamy, Sung, and Mittal 2004). A predi¸c˜ao de

estru-tura secund´aria de prote´ınas consiste na localiza¸c˜ao, na seq¨uˆencia, de subestruturas comuns,

comoα-h´elices eβ-folhas.

A classifica¸c˜ao estrutural de prote´ınas, por sua vez, diz respeito `a identifica¸c˜ao de

padr˜oes estruturais na conforma¸c˜ao 3D. Esta classifica¸c˜ao pode ser decomposta em dois

n´ıveis hier´arquicos. No primeiro n´ıvel, as prote´ınas s˜ao classificadas em dobras (problema

conhecido como reconhecimento de dobras de prote´ınas). No segundo n´ıvel, as prote´ınas s˜ao

classificadas em classes estruturais, de acordo com os tipos de dobras por elas apresentados.

Este problema ´e conhecido como reconhecimento de classes estruturais de prote´ınas, que

ser´a foco desta disserta¸c˜ao.

Atualmente, mais de 700 tipos diferentes de dobras de prote´ınas j´a foram

identifica-dos (Lo Conte et al. 2000), classificaidentifica-dos normalmente em sete classes estruturais distintas.

As similaridades estruturais das prote´ınas com mesmas dobras derivam das propriedades

f´ısicas e qu´ımicas que favorecem determinados arranjos e topologias. Considerando a grande

diferen¸ca entre o n´umero de seq¨uˆencias conhecidas e o n´umero de estruturas 3D

determi-nadas experimentalmente (a rela¸c˜ao ´e mais de 100 para 1), a demanda por t´ecnicas

auto-matizadas de reconhecimento (ou predi¸c˜ao) de dobras ou classes estruturais de prote´ınas ´e

bastante alta (Okun 2004).

As ferramentas que usam computa¸c˜ao convencional, no entanto, s˜ao limitadas para

abordar problemas biol´ogicos complexos, como este em quest˜ao. Isto ocorre, entre outras

raz˜oes, devido `a ausˆencia de uma teoria fundamental em n´ıvel molecular e `a ineficiˆencia

das ferramentas convencionais em lidar com grandes quantidades de dados (Souto et al.

(19)

aprender automaticamente a partir de grandes volumes de dados e produzir hip´oteses ´uteis,

s˜ao, ent˜ao, cada vez mais empregadas para tratar problemas em Biologia Molecular (Baldi

and Brunak 2001). De fato, o uso de t´ecnicas de AM tem sido consideravelmente explorado

na predi¸c˜ao autom´atica de estruturas de prote´ınas (Selbig and Argos 1998; Baldi et al.

2000; Turcotte, Muggleton, and Sternberg 2001; Ding and Dubchak 2001; Tan, Gilbert,

and Deville 2003).

Neste trabalho, t´ecnicas de AM s˜ao empregadas para realizar a predi¸c˜ao de classe

estru-turais de prote´ınas: ´Arvore de Decis˜ao (AD), k-Vizinhos Mais Pr´oximos (k-NN, do inglˆes k-Nearest Neighbor), Na¨ıve Bayes (NB), M´aquinas de Vetores Suporte (SVM, do inglˆes Support Vector machine) e Redes Neurais Artificiais (RNA). Tais m´etodos foram escolhi-dos por representarem diferentes paradigmas de aprendizado e serem bastante citaescolhi-dos na

literatura, inclusive na abordagem espec´ıfica deste problema (Ding and Dubchak 2001; Tan,

Gilbert, and Deville 2003; Chung et al. 2003).

Visando conseguir uma melhoria de desempenho na predi¸c˜ao de classes estruturais de

prote´ınas, sistemas de multiclassifica¸c˜ao (homogˆenea e heterogˆenea), ouensembles, s˜ao em-pregados nesta pesquisa, usando como base as t´ecnicas de AM anteriormente mencionadas.

Recentemente, m´etodos multiclassificadores aplicados a problemas de Bioinform´atica foram

investigados (Dudoit, Fridlyand, and Speed 2002; Long and Vega 2003; Tan and Gilbert

2003). Freq¨uentemente, o erro de um sistema de multiclassifica¸c˜ao ´e menor do que o erro de

um ´unico classificador (Bologna and Appel 2002). Neste trabalho, s˜ao usados os seguintes

multiclassificadores: Bagging, Boosting, Voting, Stacking e StackingC.

Al´em disso, a base de dados de prote´ınas usada neste trabalho apresenta o problema

de classes desbalanceadas (Batista 2003). Com o objetivo de minimizar esse problema e

melhorar o desempenho dos classificadores empregados, s˜ao utilizadas algumas t´ecnicas de

pr´e-processamento de dados encontradas na literatura e at´e ent˜ao n˜ao aplicadas a esta base

(20)

1.2. OBJETIVOS 5

1.2

Objetivos

O objetivo principal desta disserta¸c˜ao ´e a investiga¸c˜ao e aplica¸c˜ao de t´ecnicas de

Apren-dizado de M´aquina capazes de garantir uma alta precis˜ao na classifica¸c˜ao de prote´ınas em

classes estruturais. De modo geral, a abrangˆencia deste trabalho pode ser resumida da

seguinte maneira:

• Problema: classifica¸c˜ao de prote´ınas em classes estruturais (all-α, all-β, α/β, α+β e small).

• Dados de entrada: prote´ınas representantes de cada uma das cinco classes

estrutu-rais consideradas. Cada prote´ına ´e apresentada como sendo um vetor den atributos cont´ınuos obtidos de propriedades derivadas de sua estrutura prim´aria (seq¨uencia de

amino´acidos).

• Objetivo: usar diferentes t´ecnicas de AM para gerar classificadores capazes de

clas-sificar adequadamente as prote´ınas em classes estruturais.

Inicialmente, ´e realizada uma an´alise de desempenho das seguintes t´ecnicas de AM,

esco-lhidas por motivos previamente apresentados: AD,k-NN, NB, SVM e RNA do tipo Multi-Layer Perceptron (MLP). Tomando como base os resultados obtidos com essas t´ecnicas, s˜ao gerados multiclassificadores homogˆeneos (Bagging eBoosting) e heterogˆeneos (Voting, Stacking e StackingC), sendo o desempenho destes comparados entre si e entre os dos classificadores usados em sua forma¸c˜ao, a fim de se identificar o m´etodo que seja capaz

de realizar uma melhor classifica¸c˜ao das prote´ınas. Desse modo, al´em da avalia¸c˜ao dos

classificadores usados como base, este trabalho faz um estudo da viabilidade de um

am-biente multiclassificador aplicado ao problema do reconhecimento de classes estruturais de

prote´ınas.

Na busca por melhores desempenhos dos classificadores e diante do n´ıtido problema de

desbalanceamento de classes na base de dados empregada neste trabalho, s˜ao tamb´em

(21)

mais especificamente t´ecnicas de under-sampling, tais como: Under-sampling Aleat´orio, Tomek Links, CNN, NCL e OSS.

Para avaliar os m´etodos de classifica¸c˜ao usados neste trabalho, ´e empregada uma

metodo-logia de valida¸c˜ao, baseada na utiliza¸c˜ao dok-fold cross validation(Costa Filho, Carvalho, and Souto 2003), que estima o erro m´edio de generaliza¸c˜ao de um certo modelo. Tamb´em ´e

aplicado o teste de hip´otese (Dietterich 1998), a fim de detectar diferen¸cas estatisticamente

significativas entre os resultados obtidos com os diferentes m´etodos de classifica¸c˜ao, inclusive

com o emprego das diferentes bases de dados geradas com as t´ecnicas de under-sampling.

1.3

Organiza¸

ao da Disserta¸

ao

Esta disserta¸c˜ao est´a dividida em seis cap´ıtulos, organizados da seguinte maneira:

• Cap´ıtulo 2: s˜ao apresentadas algumas defini¸c˜oes importantes no que diz respeito

`

as prote´ınas, de modo a se entender melhor o problema de classifica¸c˜ao estrutural

de prote´ınas, e feita uma breve revis˜ao na literatura sobre trabalhos relacionados ao

assunto abordado nesta pesquisa.

• Cap´ıtulo 3: s˜ao explicitados alguns conceitos b´asicos da ´area de AM e descritos os

sistemas de multiclassifica¸c˜ao e de pr´e-processamento de dados (t´ecnicas de under-sampling de balanceamento de classes) que s˜ao utilizados neste trabalho.

• Cap´ıtulo 4: s˜ao descritas a base de dados, a metodologia de valida¸c˜ao dos resultados

e a maneira pela qual os experimentos s˜ao realizados.

• Cap´ıtulo 5: s˜ao mostrados e analisados os resultados obtidos nos experimentos.

• Cap´ıtulo 6: s˜ao apresentadas, por fim, algumas conclus˜oes e perspectivas futuras

(22)

Cap´ıtulo 2

Prote´ınas

Este cap´ıtulo descreve alguns aspectos importantes em rela¸c˜ao `as prote´ınas, necess´arios `a

compreens˜ao do problema abordado nesta disserta¸c˜ao. A Se¸c˜ao 2.1 introduz concep¸c˜oes

b´asicas sobre prote´ınas. A Se¸c˜ao 2.2 aborda a constitui¸c˜ao e forma¸c˜ao da estrutura de

prote´ınas para se compreender melhor a classifica¸c˜ao empregada neste trabalho, apresentada

na Se¸c˜ao 2.3. A Se¸c˜ao 2.4 mostra alguns enfoques computacionais relativos `a solu¸c˜ao

de problemas na ´area de Proteˆomica, principalmente sobre a classifica¸c˜ao estrutural de

prote´ınas. Uma breve revis˜ao na literatura sobre trabalhos relacionados ao assunto abordado

nesta pesquisa ´e apresentada na Se¸c˜ao 2.5.

2.1

Introdu¸

ao

Genoma ´e o conjunto completo de informa¸c˜oes necess´arias para o desenvolvimento de um

organismo, que se encontra armazenado nos cromossomos (Guimar˜aes and Melo 2003). Os

cromossomos s˜ao formados essencialmente por cadeias de ´acido desoxirribonucl´eico (DNA,

do inglˆes DeoxyriboNucleic Acid). Essas cadeias contˆem milhares de genes, a partir dos quais s˜ao fabricadas todas as prote´ınas de um organismo atrav´es do processo de express˜ao

gˆenica (Nelson and Cox 2000).

As prote´ınas1s˜ao macromol´eculas complexas, compostas de amino´acidos, necess´arias em todos os processos qu´ımicos que ocorrem nos organismos vivos (Lewis 2001): de regula¸c˜ao

1

A palavra “prote´ına” vem do grego “proteios”, que significa “em primeiro lugar” (Tsunoda 2005).

(23)

(como as enzimas que catalisam as rea¸c˜oes qu´ımicas das c´elulas), de imuniza¸c˜ao (como os

anticorpos que protegem o organismo contra corpos estranhos) e de constru¸c˜ao de outras

mol´eculas (como na produ¸c˜ao de ´acidos nucl´eicos, carboidratos e lip´ıdios) (Lewis 2001;

Souto et al. 2003). Por essa raz˜ao, as prote´ınas s˜ao consideradas os constituintes b´asicos da

vida. De fato, elas tˆem um papel essencial no metabolismo, participando praticamente de

todas as atividades celulares (Nelson and Cox 2000).

2.2

Estruturas de Prote´ına

As prote´ınas apresentam estruturas complexas que podem ser organizadas em quatro n´ıveis:

estrutura prim´aria (Se¸c˜ao 2.2.1), secund´aria (Se¸c˜ao 2.2.2), terci´aria (Se¸c˜ao 2.2.3) e quatern´

a-ria (Se¸c˜ao 2.2.4). Os trˆes ´ultimos est˜ao relacionados a estrutura espacial da prote´ına (Silva

1999).

2.2.1

Estrutura Prim´

aria

A estrutura prim´aria de uma prote´ına (apresentada na Figura 2.1, retirada de (Silva 1999))

´e simplesmente a seq¨uˆencia linear dos amino´acidos ligados entre si por liga¸c˜oes pept´ıdicas

que constituem essa prote´ına. A seguir, ser˜ao esclarecidos alguns aspectos a respeito dos

amino´acidos e da cadeia polipept´ıdica formada por eles.

Figura 2.1: Estrutura prim´aria de uma prote´ına

Amino´acidos - Composi¸c˜ao e Estrutura

Os amino´acidos (cuja estrutura geral pode ser vista na Figura 2.2) s˜ao formados por um

(24)

2.2. ESTRUTURAS DE PROTE´INA 9

e um grupo am´ınico (-NH2), comuns a todos os amino´acidos, e um grupo R, ou cadeia lateral, que os distingue entre si (Nelson and Cox 2000). Essas cadeias laterais podem diferir

bastante em rela¸c˜ao ao tamanho, estrutura, forma e propriedades qu´ımicas. Elas exercem

influˆencia em muitas caracter´ısticas dos amino´acidos, como por exemplo, na solubilidade

do amino´acido em ´agua (Guimar˜aes and Melo 2003).

Figura 2.2: Estrutura geral de um amino´acido

Existem apenas 20 amino´acidos diferentes (listados na Tabela 2.1) codificados, no

pro-cesso de express˜ao gˆenica, pelos c´odons (grupo de trˆes nucleot´ıdeos do ´acido ribonucl´eico

mensageiro2). Por´em, h´a 64 poss´ıveis combina¸c˜oes de triplas de nucleot´ıdeos, ou seja, 64

c´odons. Portanto, muitos dos amino´acidos s˜ao mapeados por mais de um c´odon. Desses 64

c´odons, trˆes s˜ao respons´aveis por indicar o final da tradu¸c˜ao, sendo denominados c´odons de

parada (Souto et al. 2003). As diferentes codifica¸c˜oes, que podem ser visualizadas na Tabela

2.2, ´e o que representa o c´odigo gen´etico. O primeiro, o segundo e o terceiro nucleot´ıdeo dos

c´odons s˜ao representados, respectivamente, pela coluna mais a esquerda, a primeira linha

e a coluna mais a direita da tabela (Esquerda-Topo-Direita) (Lewis 2001). Exemplo: ATG

codifica Metionina (Met). Na Tabela 2.2, o c´odonTer ´e o c´odon de parada.

2

(25)

Tabela 2.1: Nomenclatura e simbologia dos 20 amino´acidos que podem formar as prote´ınas

Nome S´ımbolos

Alanina Ala A

Valina Val V

Leucina Leu L

Isoleucina Ile I

Prolina Pro P

Fenilalanina Phe F Triptofano Trp W Metionina Met M

Glicina Gly G

Serina Ser S

Treonina Thr T Ciste´ına Cys C Tirosina Tyr Y Asparagina Asn N Glutamina Gln Q

Lisina Lys K

Arginina Arg R Histidina His H

´

Acido Asp´artico Asp D

Cadeia Polipept´ıdica

Durante a s´ıntese de prote´ına, o grupo carbox´ılico de um amino´acido e o grupo am´ınico

de outro liberam uma mol´ecula de ´agua e formam uma liga¸c˜ao covalente3 denominada liga¸c˜ao pept´ıdica. Ap´os a incorpora¸c˜ao `a cadeia polipept´ıdica, os amino´acidos individuais

s˜ao chamados de res´ıduos de amino´acidos4. A cadeia polipept´ıdica cont´em de algumas

dezenas a v´arias centenas de res´ıduos de amino´acidos (ou simplesmente amino´acidos) que,

ligados deste modo, formam uma estrutura em zig-zag de onde sobressaem as v´arias cadeias

laterais. A Figura 2.3 (retirada de (Silva 1999)) ilustra o processo de forma¸c˜ao de liga¸c˜oes

pept´ıdicas e a cadeia polipept´ıdica resultante.

3

Liga¸c˜ao entre dois ´atomos com partilha de dois ou mais el´etrons.

4

(26)

2.2. ESTRUTURAS DE PROTE´INA 11

Tabela 2.2: C´odigo gen´etico

T C A G

T Phe Ser Tyr Cys T

C

Leu Ter Ter A

Trp G

C Leu Pro His Arg T

C

Gin A

G

A IIe Thr Asn Ser T

C

Lys Arg A

Met G

G Val Ala Asp Gly T

C

Glu A

G

(27)

O primeiro amino´acido da cadeia, que tem o grupo am´ınico livre, ´e chamado de

ex-tremidade N-terminal, ou aminoterminal; e o ´ultimo, que tem o grupo carbox´ılico livre,

extremidade C-terminal, ou carboxiterminal. A estrutura prim´aria de uma prote´ına

con-siste na seq¨uˆencia de amino´acidos da sua cadeia polipept´ıdica, representada no sentido da

extremidade N-terminal para a extremidade C- terminal. Caso a prote´ına seja formada

por v´arias cadeias, a estrutura prim´aria consiste nas respectivas seq¨uˆencias. A Figura

2.1 mostrada anteriormente representa a estrutura prim´aria de uma prote´ına, denominada

prote´ına G.

2.2.2

Estrutura Secund´

aria

A estrutura secund´aria diz respeito `a rela¸c˜ao espacial entre amino´acidos pr´oximos (Creighton

1993). Essa estrutura ´e caracterizada por padr˜oes tridimensionais regulares e repetitivos que

ocorrem localmente no dobramento da prote´ına. Dois dos padr˜oes de estrutura secund´aria

mais comuns s˜ao asα-h´elices e asβ-folhas (Chothia et al. 1997).

1. α-h´elices

Uma α-h´elice surge a partir da forma¸c˜ao de pontes de hidrogˆenio entre o ´atomo de hidrogˆenio do grupo am´ınico e o ´atomo de oxigˆenio do grupo carbox´ılico das liga¸c˜oes

pept´ıdicas, formando uma estrutura helicoidal com 3,6 res´ıduos de amino´acidos em

cada volta. ´E uma estrutura consideravelmente est´avel tendo em vista que todos os

res´ıduos participam das pontes de hidrogˆenio (com exce¸c˜ao dos res´ıduos das

extremi-dades da h´elice) (Nelson and Cox 2000). Nela, todas as cadeias lateraisRprojetam-se para fora da h´elice. A Figura 2.4 (retirada de (Silva 1999)) mostra trˆes representa¸c˜oes

diferentes daα-h´elice: Ball & stick, sticks e cartoon5.

Al´em das α-h´elice, existem outros tipos de h´elice, como as π h´elice e a h´elice 310, menos est´aveis e muito menos comuns do que aα-h´elice.

5

(28)

2.2. ESTRUTURAS DE PROTE´INA 13

Figura 2.4: Representa¸c˜oes daα-h´elice

2. β-folhas

A estrutura de uma β-folha resulta da forma¸c˜ao de pontes de hidrogˆenio entre duas ou mais cadeias polipept´ıdicas adjacentes, formando uma estrutura planar onde as

cadeias laterais se encontram viradas para cima e para baixo, e nunca interagem

umas com as outras.

De acordo com a orienta¸c˜ao relativa dos segmentos da β-folha (orienta¸c˜ao amino-carboxila), esta recebe a classifica¸c˜ao de paralela (segmentos todos orientados na

mesma dire¸c˜ao), antiparalela (segmentos adjacentes orientados em dire¸c˜oes opostas)

(29)

(Nelson and Cox 2000). A Figura 2.5 (retirada de (Silva 1999)) mostra duas

repre-senta¸c˜oes diferentes daβ-folha mista.

Figura 2.5: Representa¸c˜oes daβ-folha mista

2.2.3

Estrutura Terci´

aria

Essencialmente, a estrutura terci´aria (ou tridimensional) de uma prote´ına consiste na

con-forma¸c˜ao tridimensional dos elementos da estrutura secund´aria em uma ´unica cadeia

polipep-t´ıdica, que resulta em uma estrutura compacta onde os ´atomos ocupam posi¸c˜oes espec´ıficas. ´

E, portanto, o arranjo tridimensional de todos os ´atomos que comp˜oem uma prote´ına (Levitt

and Chothia 1976), sendo estabilizado por intera¸c˜oes qu´ımicas entre as cadeias laterais dos

amino´acidos como, dentre outras, for¸cas de van der Waals, oxida¸c˜ao de ciste´ına, liga¸c˜oes

(30)

2.2. ESTRUTURAS DE PROTE´INA 15

A estrutura terci´aria relaciona-se com os loopings e dobramentos da cadeia prot´eica sobre ela mesma. Loopings e dobramentos s˜ao processos nos quais uma mol´ecula n˜ao organizada, que acabou de ser sintetizada, adquire uma estrutura altamente organizada

como conseq¨uˆencia de intera¸c˜oes entre as cadeias laterais dos amino´acidos (Guimar˜aes and

Melo 2003).

A estrutura tridimensional de uma prote´ına apresenta v´arias caracter´ısticas

importan-tes (Motta 2003), como:

• Muitas prote´ınas dobram-se de modo que os res´ıduos de amino´acidos que est˜ao

dis-tantes uns dos outros na estrutura prim´aria podem estar pr´oximos na estrutura

terci´aria.

• Algumas prote´ınas dobram-se em duas ou mais regi˜oes compactas conectadas por

um segmento flex´ıvel de cadeia polipept´ıdica. Essas unidades compactas, chamadas

dom´ınios, s˜ao formadas por 40 a 400 res´ıduos de amino´acidos. Dom´ınios s˜ao segmentos

estruturalmente independentes que tˆem fun¸c˜oes espec´ıficas. As pequenas prote´ınas

possuem, geralmente, apenas um dom´ınio.

A Figura 2.6 (retirada de (Guimar˜aes and Melo 2003)) mostra uma estrutura

tridimen-sional de uma prote´ına da bact´eriaGram-negativae a Figura 2.7 (retirada de (Silva 1999)) mostra, em estereoscopia6, uma representa¸c˜ao do dom´ınio B1 da prote´ına G, cuja estrutura

prim´aria foi apresentada na Figura 2.1.

Muitas vezes ´e extremamente ´util visualizar as estruturas secund´aria e terci´aria no

mesmo modelo. Para isso, utilizam-se as representa¸c˜oes pict´oricas daα-h´elice e daβ-folhas, como as apresentadas nas Figuras 2.4 e 2.5 (Se¸c˜ao 2.2.2), respectivamente. O resultado da

visualiza¸c˜ao conjunta das duas estruturas em um ´unico modelo encontra-se ilustrado na

Figura 2.8 (retirada de (Silva 1999)), que representa o dom´ınio B1 da prote´ına G (cuja

estrutura terci´aria foi mostrada na Figura 2.6, em estereoscopia). Esta ´e a forma mais

comum de representa¸c˜ao das estruturas secund´aria e terci´aria de prote´ınas.

6

(31)

Figura 2.6: Estrutura terci´aria de uma prote´ına daGram-negativa

(32)

2.2. ESTRUTURAS DE PROTE´INA 17

Figura 2.8: Estruturas secund´aria e terci´aria, em estereoscopia

2.2.4

Estrutura Quatern´

aria

A estrutura quatern´aria consiste nas rela¸c˜oes e disposi¸c˜oes relativas das cadeias

polipep-t´ıdicas presentes nas prote´ınas multim´ericas, ou seja, prote´ınas que apresentam mais de

uma cadeia polipept´ıdica.

As cadeias polipept´ıdicas das prote´ınas multim´ericas s˜ao associadas por intera¸c˜oes

n˜ao-covalentes entre os grupos desprotegidos que n˜ao participam do dobramento de cada uma

das cadeias. O arranjo espacial que as subcadeias da prote´ına passam a ter ´e conhecido

como estrutura quatern´aria.

Dependendo da estrutura quatern´aria da prote´ına, ela pode ser classificada como fibrosa

(cadeias polipept´ıdicas dispostas ao longo de um eixo, formando uma estrutura alongada)

ou globular (cadeias polipept´ıdicas muito compactas, formando uma estrutura esf´erica).

A Figura 2.9 (retirada de (Silva 1999)) mostra a conforma¸c˜ao da hemoglobina humana,

(33)

Figura 2.9: Estrutura quatern´aria da hemoglobina humana

2.3

Classifica¸

ao Estrutural

A maioria dos trabalhos dedicados ao estudo da estrutura de prote´ınas empregam uma das

classifica¸c˜oes estruturais cl´assicas definidas por bancos de dados de prote´ınas mundialmente

difundidos. Muitas dessas pesquisas abordam a classifica¸c˜ao estrutural de prote´ınas

princi-palmente em classes e dobras, de acordo com o banco de dados SCOP (do inglˆes Structure Classification of Protein) (Murzin et al. 1995). Esta disserta¸c˜ao trata a classifica¸c˜ao de prote´ınas em classes estruturais, conforme o SCOP.

De acordo com a classifica¸c˜ao do banco de dados SCOP e com a estrutura espacial

apresentada pelas prote´ınas, elas podem ser catalogadas em sete diferentes classes,

repre-sentadas por all-α, all-β, α/β, α+β, small, multi-domain proteins (α and β) e membrane and cell surface proteins and peptides. As principais classes estruturais que est˜ao presentes em todos os trabalhos de classifica¸c˜ao estrutural de prote´ınas de acordo com o banco de

dados SCOP (all-α,all-β, α/β e α+β) ser˜ao apresentadas mais adiante.

Essa classifica¸c˜ao, como j´a comentado, ´e espec´ıfica do banco de dados SCOP. Portanto,

antes de se entrar em detalhes em rela¸c˜ao `as principais classes estruturais de prote´ınas, ser´a

(34)

2.3. CLASSIFICAC¸ ˜AO ESTRUTURAL 19

especificamente, sobre banco de dados de prote´ınas, dentre eles, o SCOP, cuja classifica¸c˜ao

hier´arquica ´e usada n˜ao apenas neste trabalho, mas na maioria dos trabalhos dedicados `a

classifica¸c˜ao estrutural de prote´ınas (Bologna and Appel 2002; Ding and Dubchak 2001; Pal

and Chakraborty 2003; Huang et al. 2003; Chinnasamy, Sung, and Mittal 2004).

2.3.1

Bancos de Dados Biol´

ogicos

De maneira geral, os bancos de dados biol´ogicos podem ser classificados em prim´arios,

se-cund´arios e compostos (Tsunoda 2005). Um banco de dados prim´ario cont´em informa¸c˜ao

sobre a seq¨uˆencia de amino´acidos (ou bases nucl´eicas) componentes da prote´ına (ou DNA).

Exemplos desses s˜ao: PDB,Swiss-ProteGenBank. Um banco de dados secund´ario cont´em dados derivados do banco de dados prim´ario acrescidos de outras informa¸c˜oes, como por

exemplo: seq¨uˆencia conservada, classifica¸c˜oes e s´ıtios ativos. Exemplos desses bancos s˜ao:

SCOP, CATH, PROSITE e eMOTIF. Os bancos de dados compostos, por sua vez,

ar-mazenam dados de v´arias fontes prim´arias diferentes.

O PDB (do inglˆes Protein Data Bank) (Abola et al. 1997) ´e um reposit´orio interna-cional de dados p´ublicos de estruturas tridimensionais de macromol´eculas biol´ogicas. Seu

conte´udo ´e originado de cristalografia de raios X e experimentos de RMN. Os principais objetivos do PDB s˜ao (Tsunoda 2005): permitir a localiza¸c˜ao de estruturas de interesse,

fornecer um portal para informa¸c˜oes adicionais sobre macromol´eculas na Internet, manter

uma base de dados atualizada para pesquisadores e divulgar gratuitamente informa¸c˜oes

sobre as macromol´eculas biol´ogicas.

Um dos bancos de dados secund´arios originados do PDB ´e o CATH (do inglˆes Class, Architecture, Topology, and Homologous superfamily) (Orengo et al. 1997), que permite a an´alise das estruturas prot´eicas atrav´es de uma classifica¸c˜ao hier´arquica em dom´ınios

realizada sobre a estrutura secund´aria. Esta base de dados faz a classifica¸c˜ao da estrutura

das prote´ınas em quatro n´ıveis: classe, arquitetura, topologia e super-fam´ılias. No n´ıvel

hier´arquico “classe”, as prote´ınas s˜ao classificadas em trˆes grandes categorias: mainly-α, mainly-β e α-β. Nesta ´ultima classe, s˜ao inclu´ıdas as estruturasα/β e α+β.

(35)

et al. 1995), que fornece uma descri¸c˜ao detalhada de rela¸c˜oes evolucion´arias e estruturais

entre todas as prote´ınas com estruturas conhecidas. O objetivo do SCOP ´e realizar uma

classifica¸c˜ao estrutural e n˜ao funcional. A classifica¸c˜ao de prote´ınas no SCOP ´e, em sua

maioria, executada manualmente ou de modo semi-autom´atico, tornando-se uma tarefa

complexa e que leva uma grande quantidade de tempo. Em sua ´ultima vers˜ao, SCOP

introduziu caracter´ısticas que permitiram um gerenciamento mais r´ıgido e um aumento do

n´umero de estruturas experimentais de projetos de genoma estrutural (Tsunoda 2005).

O banco de dados SCOP ´e dividido em quatro n´ıveis hier´arquicos: classe, dobra (fold),

super-fam´ılia e fam´ılia. No n´ıvel “classe”, as prote´ınas podem ser catalogadas, como j´a

mencionado anteriormente, em sete diferentes categorias: all-α, all-β, α/β, α+β, small, multi-domain proteins (αandβ) emembrane and cell surface proteins and peptides. Cada uma dessas classes apresenta um grande conjunto de dobras que as caracteriza e permite

classificar as prote´ınas com um maior n´ıvel de detalhes em rela¸c˜ao `as estruturas que

apre-sentam. As dobras, por sua vez, podem ser classificadas em diferentes super-fam´ılias e estas,

em v´arias fam´ılias.

2.3.2

Classe

all-

α

As prote´ınas pertencentes `a classe estruturalall-αs˜ao formadas quase exclusivamente porα -h´elices, com eventuaisβ-folhas localizadas na periferia da prote´ına. A hemoglobina humana, apresentada na Figura 2.9 (Se¸c˜ao 2.2.4), ´e um exemplo de uma prote´ına da classeall-α.

S˜ao classificadas como da classeall-αaproximadamente 220 dobras diferentes de prote´ı-nas, dentre as quais podem ser citadas: Globin-like, Cytochrome c, DNA-binding 3-helical bundle, 4-helical up and down bundle, 4-helical cytokines eEF hand-like.

2.3.3

Classe

all-

β

(36)

2.3. CLASSIFICAC¸ ˜AO ESTRUTURAL 21

Figura 2.10: Prote´ına da classeall-β, em estereoscopia

Como exemplo de dobras de prote´ınas que pertencem `a classeall-β, dentre as 144 exis-tentes, podem-se citar: Immunoglobin-likeβ-sandwich,Cupredoxin-like,Viral coat & capsid proteins, Concanavalin A like lectins/glucanases, SH3-like barrel, OB-fold eβ-trefoil.

2.3.4

Classe

α

/

β

As prote´ınas pertencentes `a classeα/βapresentam uma alternˆancia acentuada deα-h´elices e β-folhas ao longo da seq¨uˆencia, dispostas de tal forma que asβ-folhas, tipicamente paralelas, formam um aglomerado central rodeado porα-h´elices. A Figura 2.11 (retirada de (Silva 1999)) representa uma prote´ına da classe α/β.

Alguns exemplos de dobras de prote´ınas (dentre, aproximadamente, 135 dobras

(37)

Figura 2.11: Prote´ına da classeα/β, em estereoscopia

2.3.5

Classe

α

+

β

A classe α+β inclui as prote´ınas que, sendo formadas por um n´umero significativo de α-h´elices e β-folhas, n˜ao s˜ao dominadas por nenhum desses padr˜oes, nem apresentam a alternˆancia observada na classeα/β. O dom´ınio B1 da prote´ına G, apresentado na Figura 2.7 (Se¸c˜ao 2.2.3), pertence `a classeα+β.

Constituem exemplos de dobras de prote´ınas (dentre as, aproximadamente, 270 dobras

diferentes) pertencentes `a classeα+β: β-grasp(Ubiquitin-like),Ferrodoxin-like, Lysozyme-like, Cysteine proteinases,LysM domain eDodecin subunit-like.

2.4

An´

alise Computacional

Como j´a comentado no Cap´ıtulo 1, o grande desafio da Bioinform´atica em Proteˆomica diz

respeito `a predi¸c˜ao te´orica da estrutura 3D de prote´ınas. Do ponto de vista computacional, a

predi¸c˜ao da estrutura tridimensional de prote´ınas pode ser realizada de diferentes maneiras.

Dentre as quais, podem ser citadas:

• Homologia (Higgins and Taylor 2001): conhecida tamb´em por modelagem

compa-rativa, trata-se da compara¸c˜ao entre seq¨uencias de prote´ınas. Este m´etodo usa uma

(38)

2.4. AN ´ALISE COMPUTACIONAL 23

prote´ına com seq¨uˆencia similar. Estas duas prote´ınas com alto n´ıvel de similaridade

entre suas seq¨uencias s˜ao consideradas hom´ologas, ou seja, prote´ınas que derivam de

uma prote´ına ancestral comum e que sofreram mudan¸cas devido a fatores relacionados

`

a evolu¸c˜ao. Elas podem exercer a mesma fun¸c˜ao, ainda que encontradas em esp´ecies

diferentes, ou podem exercer fun¸c˜oes diferentes, embora mantenham informa¸c˜oes

so-bre o relacionamento original.

• Threading (Akutsu et al. 2003): t´ecnica baseada na compara¸c˜ao de prote´ına, para a

qual se deseja obter a estrutura, com modelos descritivos dos dobramentos de prote´ınas

hom´ologas. Nesses modelos, s˜ao descritas, por exemplo: a distˆancia entre os res´ıduos

de amino´acidos, a estrutura secund´aria de cada fragmento e as caracter´ısticas

f´ısico-qu´ımicas de cada res´ıduo de amino´acido.

• Ab Initio (Bonneau et al. 2001): m´etodo para a previs˜ao da estrutura 3D de uma

prote´ına sem a utiliza¸c˜ao de informa¸c˜ao estrutural de outras prote´ınas para

com-para¸c˜ao. Os poucos programas atualmente existentes que utilizam este m´etodo tˆem

muito a melhorar para que possam ser aceitos pela comunidade cient´ıfica. Por esta

raz˜ao, prever uma estrutura tridimensional de prote´ına na total ausˆencia de homologia

continua sendo um problema considerado sem solu¸c˜ao.

Esses m´etodos destinam-se a encontrar diretamente a estrutura tridimensional da

prote´ı-na. No entanto, devido a elevada complexidade desta tarefa, ela vem sendo, normalmente,

realizada em etapas:

• 1a¯ etapa: o passo inicial na predi¸c˜ao da estrutura 3D de uma prote´ına ´e, em geral,

a predi¸c˜ao da estrutura secund´aria, ou seja, a localiza¸c˜ao na seq¨uˆencia prot´eica de

subestruturas comuns, como as α-h´elices eβ-folhas (Pollastri et al. 2002).

• 2a¯ etapa: outro passo importante ´e a descoberta de semelhan¸cas entre conforma¸c˜oes

prot´eicas (classifica¸c˜ao estrutural de prote´ınas). Tais similaridades podem ser

eviden-ciadas atrav´es da busca por padr˜oes estruturais que podem, por exemplo, caracterizar

(39)

O foco deste trabalho ´e a abordagem da 2a¯ etapa, ou seja, a an´alise estrutural das

prote´ınas para se buscar padr˜oes comuns na estrutura prot´eica, possibilitando a classifica¸c˜ao

da prote´ına no grupo com um padr˜ao caracter´ıstico. Nesta disserta¸c˜ao, isso ´e feito atrav´es

da aplica¸c˜ao de m´etodos de AM.

Como n˜ao existe uma rela¸c˜ao direta entre a seq¨uˆencia e a estrutura espacial da prote´ına,

muita aten¸c˜ao tem-se dado a t´ecnicas de AM, capazes de aprender automaticamente a partir

de grandes volumes de dados, para classificar as prote´ınas a partir de propriedades (obtidas

das estruturas prim´arias) previamente conhecidas. Recentemente, as ferramentas de AM

vˆem sendo usadas pela maior parte das pesquisas para a classifica¸c˜ao de prote´ınas atrav´es

da an´alise estrutural (Tan, Gilbert, and Deville 2003).

No tipo de abordagem apresentado na 2a¯ etapa, busca-se encontrar, freq¨uentemente,

representa¸c˜oes de padr˜oes de dobramento que facilitem a determina¸c˜ao da rela¸c˜ao entre as

topologias e fun¸c˜oes das prote´ınas (Guimar˜aes and Melo 2003). A solu¸c˜ao do problema de

classifica¸c˜ao estrutural de prote´ınas ´e feita normalmente em dois n´ıveis diferentes, tendo em

vista que dobras de prote´ınas s˜ao uma subclassifica¸c˜ao das classes estruturais, e a maioria

dos trabalhos de classifica¸c˜ao estrutural se restringe a essas duas poss´ıveis categorias (classe

e dobra) (Okun 2004).

No n´ıvel um, no reconhecimento de dobras de prote´ınas, uma prote´ına ´e classificada

em uma das poss´ıveis dobras, enquanto que no n´ıvel dois, no reconhecimento de classes

estruturais de prote´ınas, ela ´e atribu´ıda a uma das classes estruturais em que as dobras s˜ao

catalogadas. A classifica¸c˜ao pode ser feita em um desses n´ıveis ou em ambos os n´ıveis. Neste

´

ultimo caso, a classifica¸c˜ao pode ou n˜ao ser hier´arquica. Sendo hier´arquica, os classificadores

de n´ıvel um empregam as sa´ıdas dos classificadores de n´ıvel dois. Isso significa que os

classificadores de n´ıvel um n˜ao s˜ao treinados para predizer todas as dobras poss´ıveis de

prote´ınas, mas somente aquelas que pertencem `a classe estrutural predita no segundo n´ıvel

de classifica¸c˜ao (Huang, Lin, and Pal 2003).

Cada um desses classificadores pode ser obtido com a aplica¸c˜ao de um dos v´arios

(40)

2.5. TRABALHOS RELACIONADOS 25

das tendˆencias atuais na classifica¸c˜ao estrutural de prote´ınas ´e o uso de Redes Neurais

Arti-ficiais (RNA) e M´aquinas de Vetores Suporte (SVM) como algoritmos de aprendizado (Ding

and Dubchak 2001; Cai et al. 2001; Huang et al. 2003; Markowetz, Edler, and Vingron 2003;

Chung et al. 2003; Pal and Chakraborty 2003). Al´em disso, esses classificadores podem ser

resultado da combina¸c˜ao de m classificadores independentes, usando ou n˜ao o mesmo al-goritmo de AM, originando os chamados sistemas de multiclassifica¸c˜ao, que ´e atualmente

uma das principais ´areas de pesquisa em AM (Tan and Gilbert 2003).

A classifica¸c˜ao autom´atica de prote´ınas em dobras ou classes estruturais com t´ecnicas

de AM ´e feita atrav´es de propriedades derivadas da estrutura prim´aria das prote´ınas.

Nor-malmente, s˜ao usadas as seguintes seis propriedades extra´ıdas de suas seq¨uˆencias (Ding and

Dubchak 2001): composi¸c˜ao de amino´acidos, predi¸c˜ao da estrutura secund´aria, polaridade,

volume de van der Walls, polarizabilidade e hidrofobicidade. Cada propriedade ´e

represen-tada por um vetor denatributos cont´ınuos (n≥1). Uma vez que a eficiˆencia de t´ecnicas de AM depende, em grande parte, da qualidade dos dados considerados durante o treinamento,

h´a pesquisas dedicadas ao estudo para se determinar quais das propriedades anteriormente

citadas favorecem mais o desempenho dos m´etodos utilizados (Huang, Lin, and Pal 2003;

Pal and Chakraborty 2003; Huang et al. 2003).

2.5

Trabalhos Relacionados

Levitt and Chothia (1976) foram uns dos primeiros pesquisadores a realizar uma

classi-fica¸c˜ao de prote´ınas baseada em sua estrutura. Com base na observa¸c˜ao visual da sucess˜ao

de padr˜oes estruturais na cadeia polipept´ıdica, dividiram um conjunto de prote´ınas

globu-lares em quatro classes estruturais distintas, com designa¸c˜oes semelhantes, mas defini¸c˜oes

ligeiramente diferentes das que se tem hoje. Com o passar do tempo, esse assunto foi se

tornando foco da aten¸c˜ao de muitos pesquisadores (Nakashima, Nishikawa, and Ooi 1986;

Chou 1989; Kneller, Cohen, and Langridge 1990; Mitchie, Oregon, and Thomton 1996),

que contribu´ıram para a forma¸c˜ao das bases de dados que atualmente s˜ao usadas para a

(41)

Duas d´ecadas depois, Dubchak et al. (1999) formaram uma base de dados, a partir dos

bancos de dados PDB e SCOP, para a classifica¸c˜ao estrutural de prote´ınas, e empregaram

RNA na classifica¸c˜ao de prote´ınas em dobras. Ding and Dubchak (2001) realizaram uma

modifica¸c˜ao na base de dados de Dubchak et al. (1999) e formaram uma nova base de dados,

que se popularizou e passou a ser usada pela maioria dos trabalhos seguintes relacionados ao

problema de classifica¸c˜ao estrutural de prote´ınas (dispon´ıvel em http://www.nersc.gov/

~cding/protein/). Esta base de dados foi formada com 698 prote´ınas, representadas por

vetores de propriedades apresentando um total de 126 atributos. Nesta base, duas prote´ınas

n˜ao tˆem mais do que 35% de similaridade entre suas seq¨uˆencias.

Assim como Dubchak et al. (1999), v´arios outros pesquisadores consideraram o problema

de classifica¸c˜ao estrutural de prote´ınas apenas no n´ıvel um, no reconhecimento de dobras de

prote´ınas. Ding and Dubchak (2001) classificaram as prote´ınas em 27 dobras usando SVM e

RNA com trˆes m´etodos de multiclassifica¸c˜ao de duas classes (“um-contra-outros”, “unique

-um-contra-outros” e “todos-contra-todos”). Nesse trabalho, foi utilizado um grande n´umero

de classificadores e introduzido o m´etodo SVM ao problema de classifica¸c˜ao de

prote´ı-nas. Bologna and Appel (2002) usaram um sistema multiclassificador de redesPerceptrons Multi-Layer Interpretable Discretized four-layer (DIMLP), em que cada rede, ao contr´ario de Ding and Dubchak (2001), aprende todas as dobras de prote´ınas simultaneamente. Para

combinar as sa´ıdas das redes, os sistemas de multiclassifica¸c˜ao Bagging e Arcing foram empregados. Edler, Grassmann, and Suhai (2001), por sua vez, com uma base de dados

diferente da utilizada nos trabalhos anteriores, contendo apenas 268 prote´ınas, realizaram

um estudo estat´ıstico baseado em regress˜ao log´ıstica e modelos aditivos na predi¸c˜ao de

dobras de prote´ınas.

Diferentemente desses pesquisadores, outros trabalhos se detiveram `a classifica¸c˜ao de

prote´ınas em classes estruturais, ou seja, ao n´ıvel dois do problema de classifica¸c˜ao estrutural

de prote´ınas. Dentre eles, destaca-se Tan, Gilbert, and Deville (2003), que motivados pela

discuss˜ao apresentada no trabalho de Ding and Dubchak (2001) sobre o desempenho dos

classificadores em fun¸c˜ao do desbalanceamento de classes e da elevada quantidade de

(42)

2.5. TRABALHOS RELACIONADOS 27

Knowledge for Imbalance Sample Sets) e o aplicaram a uma vers˜ao modificada da base de dados de Ding and Dubchak (2001) com o objetivo de classificar as prote´ınas em cinco

classes estruturais (all-α, all-β, α/β, α+β esmall). A id´eia do eKISS ´e combinar, atrav´es de regras, a sa´ıda dos classificadores gerados pelo PART (Frank and Witten 1998), com as

abordagens “um-contra-outros” e “todos-contra-todos”. Eles compararam os resultados do

eKISS com os do PART e verificaram uma boa aplicabilidade do sistema proposto.

Tamb´em classificando as prote´ınas apenas em classes estruturais, podem ser citados os

trabalhos de: Cai et al. (2001), que usaram SVM para classificar as prote´ınas nas quatro

classes estruturais principais (all-α, all-β, α/β eα+β) e compararam os resultados obtidos com os da RNA de um de seus trabalhos anteriores (Cai and Zhou 2000); e Markowetz, Edler,

and Vingron (2003), que usaram SVM com kernel gaussiano e v´arioskernels polinomiais para classificar as prote´ınas nas mesmas classes. Markowetz, Edler, and Vingron (2003)

usaram, no entanto, uma base de dados diferente, elaborada por eles pr´oprios (dispon´ıvel

em http://www.dkfz.de/biostatistics/protein/gsme97.html).

A maioria das pesquisas abordam, na verdade, a classifica¸c˜ao estrutural de prote´ınas

em sua plenitude, isto ´e, nos dois n´ıveis em que o problema ´e comumente dividido. Pal

and Chakraborty (2003) realizaram uma classifica¸c˜ao independente em cada um dos dois

n´ıveis de classifica¸c˜ao. Treinaram RNA do tipo MLP e Radial Basis Function Network (RBFN) com uma base de dados que continha vetores com 400 atributos, obtidos apenas

da propriedade de hidrofobicidade dos amino´acidos. Tamb´em preocupados em usar na base

de dados apenas as propriedades que mais favorecem o desempenho dos m´etodos de AM

(do total de seis propriedades normalmente utilizadas), Huang et al. (2003) usaram uma

gate functionpara selecionar as propriedades prot´eicas consideradas relevantes que deveriam integrar a base de dados para o aprendizado dasgated RNAempregadas. Tamb´em foi usada, assim como no trabalho de Pal and Chakraborty (2003), uma classifica¸c˜ao independente em

cada n´ıvel.

Chinnasamy, Sung, and Mittal (2004) realizaram um pr´e-processamento na base de

dados de Markowetz, Edler, and Vingron (2003) e de Ding and Dubchak (2001) atrav´es

(43)

formadas pela sele¸c˜ao apenas das propriedades composi¸c˜ao de amino´acidos e predi¸c˜ao da

estrutura secund´aria. Apresentaram o sistema BAYESPROT, que se baseia no uso das

Tree-Augmented Networks (TAN), criadas a partir da teoria da aprendizagem bayesiana, para a classifica¸c˜ao estrutural de prote´ınas. Assim como Okun (2004), que empregou o

algoritmoK-Local Hyperplane Distance Nearest Neighbor algorithm(HKNN), duas tarefas foram realizadas independentemente: 1) a classifica¸c˜ao de prote´ınas em 27 dobras mais

significativas e 2) a classifica¸c˜ao de prote´ınas nas quatro classes estruturais principais.

De modo um pouco diferente das abordagens anteriores, Huang, Lin, and Pal (2003) e

Chung et al. (2003) realizaram uma classifica¸c˜ao hier´arquica entre os n´ıveis um e dois da

classifica¸c˜ao estrutural de prote´ınas. Huang, Lin, and Pal (2003) propuseram uma Hierar-chical Learning Architecture (HLA). A arquitetura proposta permite que tanto o m´etodo RNA como o SVM sejam empregados. Chung et al. (2003) usaram RNA e SVM como

clas-sificadores de um sistema de dois n´ıveis. Modelos simples de RNA (MLP, RBFN eGeneral Regression Neural Network - GRNN) com uma ´unica camada escondida foram usados.

Discuss˜oes

Pode-se observar que a maioria dos trabalhos faz uso da base de dados criada por Ding

and Dubchak (2001), com algumas exce¸c˜oes em rela¸c˜ao `a dimensionalidade dos vetores

de atributos e `a quantidade de prote´ınas empregadas. Tan, Gilbert, and Deville (2003),

por sua vez, sugeriram uma mudan¸ca maior nesta base de dados, realizando nela alguns

aperfei¸coamentos (maiores detalhes s˜ao expostos na Se¸c˜ao 4.1). Nesta disserta¸c˜ao, ´e usada

a base de dados de Tan, Gilbert, and Deville (2003), por ela apresentar, aparentemente,

menos imprecis˜oes.

As t´ecnicas de AM est˜ao presentes em quase todas as cita¸c˜oes encontradas na literatura

relativas `a classifica¸c˜ao estrutural de prote´ınas. Dentre os trabalhos encontrados, ressalta-se

a maior freq¨uˆencia do emprego de RNA e SVM, sendo, inclusive, utilizados na composi¸c˜ao

de sistemas de multiclassifica¸c˜ao homogˆenea. O ´unico trabalho encontrado que faz uso da

multiclassifica¸c˜ao heterogˆenea ´e o de Tan, Gilbert, and Deville (2003), que combina os

(44)

2.5. TRABALHOS RELACIONADOS 29

de AM, sem se restringir a RNA e SVM. Ao contr´ario, busca-se empregar algoritmos de

AM variados e at´e mesmo de que n˜ao se tem conhecimento de j´a terem sido usados na

solu¸c˜ao deste problema, como ´Arvore de Decis˜ao (AD) e diferentes m´etodos de

multiclassi-fica¸c˜ao heterogˆenea. Outro estudo feito neste trabalho, sem referˆencia anterior, diz respeito

`a an´alise da aplica¸c˜ao de t´ecnicas de pr´e-processamento de dados, direcionadas `a redu¸c˜ao

do desbalanceamento da quantidade de instˆancias nas classes, com o intuito de aumentar o

desempenho dos m´etodos de AM na classifica¸c˜ao estrutural de prote´ınas.

Como mencionado anteriormente, o problema pode ser abordado em dois n´ıveis

diferen-tes. No n´ıvel um, as prote´ınas s˜ao classificadas em dobras e no outro, em classes estruturais.

A maioria dos trabalhos considerou, em seus experimentos, esses dois n´ıveis citados, seja

atrav´es de uma classifica¸c˜ao hier´arquica ou independente entre os n´ıveis. Por´em, alguns

pesquisadores, como Ding and Dubchak (2001) e Markowetz, Edler, and Vingron (2003),

focaram suas pesquisas apenas no n´ıvel um e outros, como Cai et al. (2001) e Tan, Gilbert,

and Deville (2003) apenas no n´ıvel dois. Neste trabalho, assim como nos ´ultimos citados,

a pesquisa ´e restrita ao n´ıvel dois (reconhecimento de classes estruturais), com o intuito

de abordar mais profundamente este filtro de classifica¸c˜ao e garantir poss´ıveis melhores

resultados em trabalhos futuros de classifica¸c˜ao de prote´ınas no n´ıvel um.

A acur´acia global dos classificadores foi usada como m´etrica em quase todos os trabalhos,

a menos de Tan, Gilbert, and Deville (2003) que apresentou os resultados em termos de F-measure (Rijsbergen 1979) e de curvas ROC (Provost, Fawcett, and Kohavi 1998). Apesar de a mesma m´etrica ser usada pela maioria das pesquisas, houve uma grande variabilidade

na metodologia aplicada durante a realiza¸c˜ao dos experimentos, como por exemplo: alguns

trabalhos empregaram, como forma de valida¸c˜ao, o k-fold cross validation (com valores diferentes parak) enquanto que outros, oholdout. Por causa dessas diferentes metodologias empregadas, n˜ao ´e poss´ıvel realizar uma justa compara¸c˜ao entre os resultados obtidos nos

(45)

Aprendizado de M´

aquina

Este cap´ıtulo descreve caracter´ısticas e funcionalidades b´asicas de m´etodos computacionais

utilizados nesta disserta¸c˜ao. A Se¸c˜ao 3.1 apresenta conceitos gerais de Aprendizado de

M´aquina (AM). A Se¸c˜ao 3.2 descreve os diferentes sistemas de multiclassifica¸c˜ao homogˆenea

(Bagging eBoosting) e heterogˆenea (Voting,Stacking eStackingC) empregados neste tra-balho. Na Se¸c˜ao 3.3, ´e discutida a importˆancia de pr´e-processamento de dados e s˜ao descritas

as principais t´ecnicas de under-sampling.

3.1

Introdu¸

ao

Aprendizado de M´aquina (AM) estuda como construir algoritmos que melhoram o pr´oprio

desempenho em alguma tarefa por meio de experiˆencia (Mitchell 1997). Aprender, nesse

contexto, pode ser definido (para situa¸c˜oes em que o desempenho em alguma tarefa pode

ser medido) como a seguir: diz-se que um programa computacional aprende a partir da

experiˆenciaE, em rela¸c˜ao a uma classe de tarefasT, com medida de desempenhoD, se seu desempenho nas tarefasT, medida por D, melhora com a experiˆencia E (Mitchell 1997).

A maioria dos m´etodos de AM adquirem experiˆencia estritamente a partir dos dados

conhecidos do problema. Assim, melhor ser´a o desempenho dos m´etodos de AM quanto

melhor for a qualidade dos dados (Batista 2003). Devido aos dados dispon´ıveis, diversos

aspectos podem influenciar na performance de um sistema de aprendizado. Em bases de

dados reais, dois desses aspectos est˜ao relacionados com a presen¸ca de valores desconhecidos,

(46)

3.1. INTRODUC¸ ˜AO 31

pois distor¸c˜oes podem ser introduzidas no conhecimento induzido, e com a diferen¸ca entre o

n´umero de instˆancias que pertencem a diferentes classes, uma vez que quando esta diferen¸ca

´e grande, sistemas de AM podem ter dificuldade em aprender o conceito relacionado a classe

minorit´aria (Batista, Prati, and Monard 2004). Tais problemas podem ser minimizados, por

exemplo, com a aplica¸c˜ao de t´ecnicas de pr´e-processamento de dados, vistas na Se¸c˜ao 3.3.

3.1.1

Paradigmas de AM

T´ecnicas de AM podem ser divididas em aprendizado supervisionado e aprendizado n˜ao

supervisionado, de acordo com os dados dispon´ıveis para a realiza¸c˜ao do processo de indu¸c˜ao.

No aprendizado supervisionado, o indutor recebe um conjunto de instˆancias, cada

instˆan-cia sendo formada por um conjunto de atributos de entrada e um conjunto de atributos

de sa´ıda (r´otulos) antes do processo de aprendizado (Souto et al. 2003). O objetivo do

algoritmo de aprendizado ´e construir um classificador que possa determinar corretamente a

classe de novas instˆancias ainda n˜ao rotuladas. Como exemplos de t´ecnicas de aprendizado

supervisionado podem ser citados, dentre outros: redes neurais artificiais do tipomultilayer perceptroncombackpropagation, m´aquinas de vetores de suporte e ´arvores de decis˜ao.

Por outro lado, o aprendizado n˜ao supervisionado ´e realizado quando, para cada instˆ

an-cia, apenas os atributos de entrada est˜ao dispon´ıveis. Esse tipo de aprendizado ´e utilizado

quando o objetivo ´e encontrar, em um conjunto de dados, padr˜oes ou tendˆencias

(agru-pamentos ou clusters) que auxiliem o entendimento desses dados (Costa 1999). Como exemplos de t´ecnicas de aprendizado n˜ao supervisionado podem ser citados, dentre outros:

redes neurais do tipo mapa auto-organiz´aveis (SOM),k-m´edias e agrupamento hier´arquico. Para o reconhecimento de classes estruturais de prote´ınas, t´ecnicas de aprendizado

su-pervisionado s˜ao utilizadas neste trabalho. Na solu¸c˜ao deste problema, os indutores recebem

como entrada, no processo de aprendizado, instˆancias formadas por um conjunto de vetores

de atributos, derivados da estrutura prim´aria da prote´ına, e rotuladas pela classe estrutural

a que se referem.

Foram selecionados, para serem empregadas na gera¸c˜ao dos classificadores base dos

Imagem

Figura 2.2: Estrutura geral de um amino´ acido
Tabela 2.1: Nomenclatura e simbologia dos 20 amino´acidos que podem formar as prote´ınas Nome S´ımbolos Alanina Ala A Valina Val V Leucina Leu L Isoleucina Ile I Prolina Pro P Fenilalanina Phe F Triptofano Trp W Metionina Met M Glicina Gly G Serina Ser S T
Tabela 2.2: C´odigo gen´etico
Figura 2.4: Representa¸c˜oes da α-h´elice
+7

Referências

Documentos relacionados

Foram desenvolvidas duas formulações, uma utilizando um adoçante natural (stévia) e outra utilizando um adoçante artificial (sucralose) e foram realizadas análises

Resultado: Ranking de Educação conforme pesquisa do Observatório Social do Brasil.. Ranking- EDUCAÇÃO

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

• Os municípios provavelmente não utilizam a análise dos dados para orientar o planejamento de suas ações;. • Há grande potencialidade na análise dos micro dados do Sisvan

Promovido pelo Sindifisco Nacio- nal em parceria com o Mosap (Mo- vimento Nacional de Aposentados e Pensionistas), o Encontro ocorreu no dia 20 de março, data em que também

 Local da prova objetiva seletiva para o mestrado e prova subjetiva seletiva para o doutorado em Fortaleza: Universidade Federal do Ceará, Departamento de

Os elementos caracterizadores da obra são: a presença constante de componentes da tragédia clássica e o fatalismo, onde o destino acompanha todos os momentos das vidas das

Com a investigação propusemo-nos conhecer o alcance real da tipologia dos conflitos, onde ocorrem com maior frequência, como é que os alunos resolvem esses conflitos, a