Abordagens Bioinspiradas - Classificação Multirrótulo não Hierárquica

3.2 Classificação Multirrótulo não Hierárquica

3.4.2 Abordagens Bioinspiradas

Em (Cerri e Carvalho,2010a), Redes Neurais Artificiais (RNA) foram utilizadas como clas-

sificadores base no método de classificação hierárquica multirrótulo HMC-LP (Cerri e Car-

valho, 2010b; Cerri et al., 2011), baseado na abordagem LCPN. O método proposto é uma

adaptação do método de classificação multirrótulo não hierárquico chamado Label-Powerset, utilizado emBoutell et al. (2004) e Tsoumakas e Vlahavas (2007). Em cada nível da hierarquia de classes, o métodoHMC-LPcombina as classes atribuídas a um exemplo em uma nova e única classe, transformando o problema hierárquico multirrótulo original em um problema hierárquico simples rótulo. Após essa simplificação, a abordagem local é utilizada para treinamento e teste do método, utilizandoRNAcomo classificadores base.

No trabalho deCai e Hofmann(2007) foi desenvolvido um método baseado na abordagem global utilizando computação bioinspirada. Os autores propuseram um Perceptron hierárquico utilizando a regra de aprendizado mínima sobreposição (minimum overlap (Minover)) (Krauth

e Mezard, 1987). O método utiliza os exemplos que mais violam a margem de separação de-

sejada para atualizar o hiperplano de separação. Somente os vetores de pesos dos nós que são predecessores de c ∈ C′ _{ou c ∈ C}′ _(C′ _{denota um dado conjunto verdadeiro de classes e C}′ _seu

complemento), mas não ambos, são atualizados. Os outros nós permanecem inalterados. Um perceptron hierárquico foi desenvolvido no trabalho deWoolam e Khan(2008), esten- dendo o algoritmo Hieron proposto no trabalho deDekel et al. (2004). O método proposto, chamado de MultiHieron, preservou as características do algoritmo original, mas introduziu modificações para garantir que as predições sejam multirrótulo. Modificações foram feitas para garantir o cálculo das margens de separação, e também foi introduzida uma função de erro mais adequada para problemas multirrótulo. Experimentos em conjuntos de dados de texto mostraram bons resultados na acurácia preditiva.

No trabalho deAlves et al.(2008), também foi proposto um método baseado na abordagem global utilizando Sistemas Imunes Artificiais (SIA) (de Castro e Timmis, 2002). O método foi chamado Multi-label Hierarchical Classification with an Artificial Immune System (MHC- AIS) e utilizado na tarefa de predição de proteínas descritas na GO. Segundo os autores, o algoritmo proposto é capaz de encontrar um conjunto de regras que sejam tanto hierárquicas quanto multirrótulo, tal que uma única regra de classificação seja capaz de atribuir mais de um caminho de uma estrutura hierárquica a um exemplo. O algoritmo de treinamento é dividido em

dois procedimentos básicos chamados Sequential Covering (SC) e Rule Evolution (RE). Esses procedimentos produzem regras de classificação candidatas, sendo cada regra composta de duas partes: um antecedente (IF part), representado por um vetor de condições atributo-valor, e um consequente (THEN part), representado por um conjunto de classes preditas. O procedimento SC iterativamente chama o procedimento RE até que todos (ou quase todos) os “antígenos” (exemplos de treinamento) sejam cobertos pelas regras descobertas. O procedimento RE evolui “anticorpos” (regras de classificação) que são utilizadas para classificar os antígenos. O melhor anticorpo é adicionado ao conjunto de regras descobertas.

Em (Alves et al., 2010) foram adicionados alguns procedimentos ao algoritmo proposto

em (Alves et al., 2008), a fim de melhor seu desempenho. O primeiro procedimento consiste

em recalcular o fitness de todas as regras considerando todo o conjunto de exemplos de treinamento e, remover dos consequentes das regras, todas as classes que apresentarem um valor de fitness menor que um dado limiar. Outra modificação foi a utilização de procedimentos de poda e busca local na melhor regra encontrada pelo procedimento Rule Evolution, de maneira a obter maior simplicidade e precisão. Experimentos em conjuntos de dados daGOmostraram bons resultados.

Em (Otero et al., 2010), foi estendido o método global chamado hAnt-Miner (Otero et al.,

2009), um método de inteligência de enxames baseado em Otimização por Colônias de Formi- gas (OCF) (Dorigo et al., 1991;Dorigo, 1992) para a classificação hierárquica simples-rótulo. O método hAnt-Miner tem o objetivo de descobrir regras hierárquicas de classificação na forma SE antecedente ENTÃO consequente. A construção de uma regra é dividida em duas colônias de formigas, uma colônia para criar o antecedente de uma regra e outra para criar o consequente, que trabalham de forma cooperativa. Basicamente, um processo de cobertura sequencial de exemplos é empregado para criar regras de classificação que cubram todos, ou quase todos, os exemplos de treinamento. O algoritmo é iniciado com uma lista vazia de regras, e uma nova regra é adicionada à lista enquanto o número de exemplos não cobertos por nenhuma regra for maior que um dado parâmetro. A cada iteração, uma regra é construída por meio do parea- mento de uma formiga da colônia responsável pela criação dos antecedentes das regras, com uma formiga da colônia responsável pela criação dos consequentes das regras. O novo método proposto, chamado hmAnt-Miner, difere do original nos seguintes aspectos: (i) o consequente de uma regra é obtido utilizando um procedimento determinístico baseado nos exemplos cobertos pela regra, e não mais utilizando uma colônia específica. Isso fez com que as regras geradas agora fossem hierárquicas multirrótulo; (ii) a heurística utilizada agora é baseada na distância Euclidiana entre os consequentes das regras, em que cada consequente é representado por um vetor de valores de pertinência de classes; (iii) a qualidade de uma regra é avaliada utilizando uma medida baseada em distância; e (iv) o procedimento de poda de uma regra não é aplicado ao consequente da regra. Ao invés disso, o consequente é recalculado quando seu antecedente é modificado durante a poda.

No trabalho deBrucker et al.(2010), foi investigado o problema de extração de hierarquias a partir dos resultados obtidos por um classificador multirrótulo não hierárquico. Nesse traba-

lho, supõe-se que a hierarquia seja desconhecida e que tenha que ser inferida automaticamente a partir de predições multirrótulo. O método proposto utiliza um classificador multirrótulo chamado ML-ARAM (Sapozhnikova,2009), pertencente à família de redes neurais Adaptative Resonance Theory(ART) (Carpenter e Grossberg,1987). A rede ML-ARAM é uma extensão multirrótulo do método Adaptive Resonance Associative Map (ARAM) (Tan,1995). Associado ao classificador multirrótulo, é utilizado um algoritmo de aprendizado de regras e um algoritmo para extração de hierarquias. Outros dois métodos de classificação multirrótulo também foram utilizados no lugar do método ML-ARAM, chamados BoosTexter (Schapire e Singer, 2000) e ML-kNN (Zhang e Zhou, 2007). Basicamente, após a classificação multirrótulo, o método cria regras envolvendo todas as classes preditas. O procedimento de construção de regras asse- gura que, quanto mais frequentemente uma classe aparecer nos consequentes das regras, mais alto será o seu nível na hierarquia. Experimentos em conjuntos de dados de textos mostraram bons resultados na predição multirrótulo, e também as hierarquias geradas foram comparadas com as hierarquias verdadeiras dos conjuntos de dados utilizados, mostrando consistência das hierarquias encontradas. O método, no entanto, não é considerado aqui como um método de classificação hierárquica multirrótulo, pois não faz considerações sobre a hierarquia de classes nas fases de treinamento e teste. O método é visto essencialmente como um método de classi- ficação multirrótulo não hierárquica, sendo que a hierarquia de classes é inferida apenas após a predição multirrótulo final.

Em (Borges e Nievola,2012), foi desenvolvido um método global utilizando uma rede neu-

ral competitiva. A rede neural consiste de uma camada de entrada, formada pelos atributos dos exemplos, e de uma camada de saída, na qual cada neurônio corresponde a um nó da hierarquia. O processo de treinamento da rede consiste de três etapas: competição, cooperação e adapta- ção. Na etapa de cooperação, é calculada, para cada exemplo de treino, a distância entre esse exemplo e todos os nós da hierarquia. Os neurônios que possuem a menor distância são en- tão considerados os neurônios vencedores, e irão influenciar todos os seus neurônios ancestrais (neurônios correspondentes aos nós ancestrais dos nós considerados vencedores). A fase de co- operação consiste então em encontrar todos os neurônios ancestrais dos neurônios vencedores. Na fase de adaptação, os pesos sinápticos conectando os atributos de entrada aos neurônios vencedores, e também seus ancestrais, são ajustados. Esse ajuste consiste em aproximar ou afastar os vetores de pesos dos vetores de atributos dos exemplos. Se a classe associada a um neurônio vencedor for igual à classe do exemplo em questão, os pesos são ajustados para aproximar os vetores. Caso contrário os pesos serão ajustados de maneira a distanciar os vetores. O método, chamado Multi-Label Hierarchical Classification Using a Competitive Neural Network (MHC- CNN) foi aplicado a conjuntos de dados biológicos com hierarquias estruturadas comoDAGs.

A tabela3.1 apresenta os trabalhos revisados nesta seção, categorizados de acordo com a taxonomia proposta em (Silla e Freitas,2010).

Tabela 3.1: Categorização dos métodos de acordo com a taxonomia proposta por (Silla e Freitas,

2010).

< ∆, Ξ, Ω, Θ > Lista de trabalhos

<MPP,NMLNP,D,LCN>

Nguyen et al.(2005);Barutcuoglu et al.(2006);Barutcuoglu e DeCoro(2006);DeCoro

et al.(2007);Guan et al.(2008);Jin et al.(2008);Punera e Rajan(2009);Chen et al.

(2010);Bi e Kwok(2011)

<MPP,NMLNP,T,LCN>

Dumais e Chen(2000);Sun e Lim(2001);Sun et al.(2003,2004);Cesa-Bianchi et al.

(2006);Valentini(2009,2011);Valentini e Re(2009);Cesa-Bianchi e Valentini(2010);

Bennett e Nguyen(2009);Mayne e Perry(2009);Re e Valentini(2010a);Chen e Hu

(2010);Díez et al.(2010);Cesa-Bianchi et al.(2011)

<MPP,NMLNP,D,LCPN> Kiritchenko et al.(2004)

<MPP,MLNP,T,LCPN> Esuli et al.(2006,2008);Cerri e Carvalho(2010b,a);Cerri et al.(2011)

<MPP,NMLNP,T,GC> Rousu et al.₍₂₀₀₈₎ (2006);Clare e King(2003);Cai e Hofmann(2004,2007);Woolam e Khan

<MPP,NMLNP,D,GC>

Blockeel et al.(2002);Struyf et al.(2005);Kiritchenko et al.(2005,2006);Blockeel et al.

(2006);Cai e Hofmann(2007);Alves et al.(2008,2010);Vens et al.(2008);Aleksovski

et al.(2009);Dimitrovski et al.(2009,2010,2011);Schietgat et al.(2010);Otero et al.

(2010);Sangsuriyun et al.(2010);Pugelj e Džeroski(2011);Wang et al.(2011);Bi e

Kwok(2012);Borges e Nievola(2012)

No documento Redes neurais e algoritmos genéticos para problemas de classificação hierárquica... (páginas 73-76)