ESQUEMAS DE CLASSIFICAÇÃO LOCAL VS GLOBAL

2.7 ABORDAGENS PARA PREDIÇÃO DE FUNÇÕES DE PROTEÍNAS BASEADA NA ONTOLOGIA GÊNICA

2.7.2 ESQUEMAS DE CLASSIFICAÇÃO LOCAL VS GLOBAL

Entre os trabalhos estudados, apenas os algoritmos desenvolvidos por Jensen et al. (2003) e Eisner et al. (2005) são tipicamente classificadores binários, também chamados de classificadores locais. Nestes trabalhos um classificador é construído para cada termo GO, tratado como uma classe prevista. Cada classificador retorna uma resposta positiva (pertence à classe prevista) ou negativa (não pertence à classe prevista). Assim uma proteína deve ser submetida a um conjunto de classificadores para obter o conjunto de termos GO associado àquela proteína.

Os trabalhos de Lu et al. (2004), e Vinayagam et al. (2004) podem ser caracterizados como classificadores binários pelo fato de que classificam um exemplo como positivo ou negativo na predição. Os termos da GO não são considerados explicitamente como classes a serem previstas, mas sim implicitamente. Atributos para cada termo da GO são obtidos em uma etapa de pré-processamento. Assim, cada vetor de atributos obtido para um termo GO é usado como exemplo de treinamento para construir o classificador. Para associação de termos da GO a um novo exemplo, o processo é análogo, deve-se obter um conjunto de termos da GO candidatos e seus respectivos vetores de atributos. Posteriormente, cada exemplo é submetido ao classificador treinado, obtendo como resposta uma saída positiva ou negativa. Apesar destes classificadores serem binários numa primeira avaliação, sob o ponto de vista de geral predição, ele podem ser enquadrados na categoria global. Isto porque a predição é realizada através de um único classificador para qualquer termo GO com seu vetor de atributos.

No trabalho de Barutcuoglu, Schapire e Troyanskaya (2006) também é criado um classificador para cada termo GO previsto. Cada nova proteína é classificada com um determinado valor de confiança que especifica se uma proteína é ou não associada ao termo GO para o qual o classificador foi treinado. Estes valores são usados para construir e treinar uma rede bayesiana

para complementar a predição. Posteriormente, os valores de confiança obtidos pelos classificadores são usados para a rede bayesiana que foi treinada, e assim é obtido o conjunto de termos GO associados àquela proteína. Esse modelo tem a desvantagem de que predições podem ter respostas distintas no classificador tipicamente binário e na rede bayesiana, assim fica a dúvida sobre qual resposta deve ser assumida.

Os algoritmos desenvolvidos em King et al. (2003), Letovsky e Kasif (2003) e Vens et al. (2008) são tipicamente globais pois um único classificador é criado para predizer todos os termos GO de uma proteína. Em King et al. (2003) o classificador é representado por ADs e complementado por uma RB, enquanto que em Vens et al. (2008) é baseado apenas em AD. No trabalho de Letovsky e Kasif (2003) o classificador é representado uma rede de Markov. A principal vantagem do esquema de classificação global se deve ao fato de que, durante a construção do classificador, o algoritmo de aprendizado de máquina tem acesso a todas as classes de uma única vez. Assim, o algoritmo tem a oportunidade de construir um classificador único e executar uma análise ampla de todas as classes.

O trabalho de Tu et al. (2004) também apresenta um classificador global. Entretanto, como a GO é representada por um DAG, o objetivo deste trabalho é construir um classificador para realizar predição a partir de um nodo “pai” para seus descendentes. Cada nodo descendente representa um classe passível de classificação. Assim, para cada nodo “pai” um classificador é treinado para prever classes mais específicas. A principal limitação deste método se dá pelo reduzido número de classes a serem previstas pelo classificador.

Esta tese aborda a construção de classicadores globais e locais, através de SIA, para associar funções biológicas a proteínas.

2.7.3 RAMO(S) DA GO ABORDADO(S)

Na seção 2.4 é descrito que a GO é dividida em três ramos ou sub-ontologias independentes, cada qual descrevendo genes e produtos gênicos específicos. Os três ramos são: processo bio- lógico (PB), função molecular (FM) e componente celular (CC). Os trabalhos estudados podem ser categorizados quanto ao(s) ramo(s) da GO abordado(s) para predição de funções de proteí- nas.

Os trabalhos de Tu et al. (2004) e Barutcuoglu, Schapire e Troyanskaya (2006) abordam o ramo da GO referente aos processos biológicos. A limitação desta abordagem se deve ao fato que este ramo da GO descreve uma série de eventos realizados por um ou mais grupos ordenados de funções moleculares. Assim, o conhecimento detalhado da função de proteína é perdido, pois tem-se uma classificação em um nível mais geral da sua atividade.

Em Eisner et al. (2005) e Vinayagam et al. (2004) o ramo da GO referente às funções moleculares é abordado. Este ramo descreve atividades realizadas por produtos gênicos no nível celular. Intuitivamente, este é o ramo mais adequado para descrição e utilização para predição de funções de proteínas.

Todos os três ramos da GO são abordados em Jensen et al. (2002), King et al. (2003), Letovsky e Kasif (2003), Lu et al. (2004) e Vens et al. (2008). Esta abordagem parece a mais completa, pois é sabido que algumas funções biológicas dependem do ambiente celular das proteínas. Assim, informações adicionais do ramo da GO de componente celular e de processo biológico agregam conhecimento para a construção de classificadores mais precisos. Entre- tanto, como o objetivo é realizar predições de funções biológicas, um classificador que associa com alto grau de confiabilidade apenas termos do ramo componente celular, intuitivamente, não cumpre o objetivo principal de predizer funções. Assim, é importante garantir que os termos relativos aos ramos de processo biológico e componente celular sejam tratados como informações adicionais e complementares aos termos do ramo função molecular.

No trabalho descrito nesta tese são abordados apenas os termos da GO relativos ao ramo função molecular.

2.7.4 EXPLORAÇÃO DA ESTRUTURA HIERÁRQUICA DA GO PARA CRIAÇÃO DO

No documento Um sistema imunológico artificial para classificação hierárquica e multi-label de funções de proteínas (páginas 68-70)