• Nenhum resultado encontrado

A primeira motivação que levou ao desenvolvimento desta pesquisa está relacionada às abordagens global e local de classificação. Depois de uma detalhada pesquisa bibliográfica, verificou-se a inexistência de métodos de classificação hierárquica multirrótulo baseados na abordagem local que utilizem um classificador em cada nível da hierarquia. Todos os métodos encontrados, ou são baseados na abordagem global, ou associam um classificador local a cada nó da hierarquia de classes, ou associam um classificador local a cada nó interno da hierar- quia de classes, decompondo o problema de classificação em vários sub-problemas. O uso de muitos classificadores pode resultar na utilização de informação muito específica, perda de in- formação, e não utilização das dependências entre as classes durante o processo de treinamento

(Silla e Freitas, 2010). Ainda, a abordagem global deixa de utilizar informações locais que

podem ser úteis para explorar diferentes padrões nos dados em diferentes níveis hierárquicos. Dessa forma, optou-se pelo desenvolvimento de um método que associe um classificadorMLP

a cada nível hierárquico, de maneira que os problemas previamente mencionados pudessem ser amenizados. Redes neurais foram escolhidas por serem muito robustas, e também pela facili- dade de aplicação a problemas multirrótulo, já que cada neurônio de saída pode ser associado a uma classe.

A segunda motivação está relacionada à interpretabilidade dos classificadores. A tarefa de geração de regras de classificação para problemas hierárquicos multirrótulo ainda é muito desafiadora, pois uma regra deve ser capaz de classificar vários exemplos em um conjunto de classes, respeitando as restrições impostas pela hierarquia. Ainda, a interpretabilidade dessas regras está diretamente relacionada à abordagem de classificação escolhida. Métodos baseados na abordagem local geram vários conjuntos de regras, cada um produzido por um classificador. Já métodos baseados na abordagem global geram um único conjunto de regras, pois utilizam um único classificador. Assim, métodos baseados na abordagem global produzem um número

menor de regras, o que tende a ser mais interpretável do que vários conjuntos de regras.

Os principais métodos para geração de regras de classificação hierárquicas multirrótulo são baseados nas abordagens local e global utilizando Árvores de Decisão (AD) (Vens et al.,

2008), ou baseados na abordagem global utilizando Otimização por Colônias de Formigas

(OCF) (Otero et al., 2010). No entanto, esses métodos ainda apresentam resultados preditivos

ruins. Assim, optou-se pelo desenvolvimento de um método global de classificação que utiliza Algoritmos Genéticos (AG) para a geração de regras de classificação. AGforam escolhidos por se tratarem de algoritmos bem estabelecidos na literatura para a geração de regras, e robustos para muitos problemas. Ainda, a função objetivo nosAG não é diferenciável. Utilizou-se a busca global realizada pelo algoritmo genético para gerar regras de classificação simples e com bom desempenho preditivo.

A terceira motivação está relacionada às áreas de aplicação de métodos hierárquicos mul- tirrótulo. Uma dessas áreas é a Bioinformática, em que técnicas computacionais têm muito a contribuir para a área da proteômica, por meio da identificação de proteínas expressas pelo genoma e predição de suas funções. Essa predição pode ser feita por meio de homologia, com- parando uma nova sequência com outras sequências de proteínas, já com funções identificadas, presentes em um conjunto de dados. Apesar desse método ser muito utilizado, ele apresenta li- mitações. Duas proteínas podem apresentar sequências similares mas desempenharem funções diferentes, ou apresentar sequências diferentes e desempenharem funções iguais ou similares. Proteínas sendo comparadas podem ser similares em regiões de suas sequências não determi- nantes para suas funções. Adicionalmente, a predição por meio de homologia entre sequências ignora as muitas propriedades bioquímicas das proteínas. Muitas bases de dados são organiza- das de maneira hierárquica, quando são distribuídas em classes e subclasses, e alguns problemas hierárquicos são multirrótulo (proteínas podem desempenhar mais de uma função), dificultando ainda mais a tarefa de classificação. Sendo assim, métodos de predição baseados emAMtêm sido explorados na classificação de funções de proteínas. Nesta pesquisa, optou-se por traba- lhar com problemas de predição de funções de proteínas, nos quais as funções estão organizadas em estruturas do tipo árvore e do tipo Grafo Acíclico Direcionado (GAD) (do inglês Directed Acyclic Graph(DAG)).

Com hierarquias estruturadas como árvores, foram utilizados conjuntos de dados com clas- ses organizadas de acordo com o esquema de classificação FunCat (Ruepp et al., 2004), de- senvolvido pelo Munich Information Center for Protein Sequences (MIPS). Nesse esquema, as classes (funções de proteínas) são identificadas por um código composto por números, sendo que o primeiro especifica a classe mais geral e o último a classe mais específica. Exempli- ficando, a função metabolismo da glutamina tem o código 01.01.03, em que 01 representa a função metabolismo, 01.01 representa a função metabolismo de aminoácido, e 01.01.03 repre- senta a função assimilação de amônia (metabolismo do grupo glutamato). A hierarquia de classes da FunCat possui seis níveis hierárquicos e centenas de classes.

Estruturados como grafos, foram utilizados conjuntos de dados com classes organizadas de acordo com a Gene Ontology (GO) (Ashburner et al., 2000). Essa hierarquia é organizada

em três ontologias: ontologia de componentes celulares, ontologia de processos biológicos e ontologia de funções moleculares. Nessas ontologias, funções de proteínas estão organizadas de maneira hierárquica, e proteínas podem apresentar mais de uma função. Os conjuntos de dados utilizados possuem milhares de classes e podem possuir até 13 níveis hierárquicos, dependendo do caminho escolhido entre uma classe e o nó raiz da hierarquia.