Predições como Complementação dos Vetores de Atributos

Como pode ser observado na Figura 4.2, a primeira variação do método HMC-LMLP

(HMC-LMLP-Labels) faz uso dos exemplos de treinamento como entrada apenas na rede neural associada ao primeiro nível da hierarquia. Do segundo nível em diante, apenas as predições feitas no nível anterior são utilizadas como entrada para as redesMLP. Essa estratégia possui a desvantagem de que as informações locais dos exemplos são utilizadas apenas no primeiro nível, ou seja, as informações fornecidas pelos atributos preditivos dos exemplos são utilizadas apenas no primeiro nível da hierarquia. Assim, deixam de ser utilizadas informações locais im- portantes (atributos) dos exemplos associados aos próximos níveis. Observou-se que isso levou a desempenhos de classificação ruins do segundo nível em diante.

Para contornar esse problema, foi proposta a variação HMC-LMLP-Predicted. Nessa vari- ação, os exemplos de treinamento são utilizados no processo de treinamento de todas as redes

MLP associadas a todos os níveis da hierarquia. Em outras palavras, durante o processo de treinamento, a entrada utilizada para a indução da redeMLPassociada ao nível l agora inclui os exemplos de treinamento que são classificados nas classes pertencentes ao nível l. Dessa maneira, cada redeMLPagora extrai informações locais dos exemplos pertencentes aos seus níveis associados, o que acredita-se ser útil para a generalização e classificação de novos exemplos. Como problemas hierárquicos multirrótulo são complexos, trabalha-se com a hipótese de que diferentes informações podem ser extraídas dos exemplos de treinamento em diferentes níveis hierárquicos.

A Figura 4.3 ilustra a arquitetura e o processo de treinamento da variação HMC-LMLP- Predicted para a indução de um modelo de classificação para o conjunto de dados ilustrado na Figura4.1. Na figura, Xl _{representa os exemplos de treinamento classificados nas classes}

localizadas no nível l da hierarquia. Cada rede MLP agora tem como entrada os exemplos de treinamento classificados nas classes de seu nível associado. Adicionalmente, os vetores de atributos dos exemplos utilizados no treinamento da rede MLP associada ao nível l são complementados com as saídas fornecidas pela redeMLPassociada ao nível l − 1.

h1 W11 . . . . . . W21 O1 X h1 W11 . . . . . . W21 O1 W12 h2 . . . W22 O2 Nível 1 Nível 2 X . . . 2 X h1 W11 . . . . . . W21 O1 W12 h2 . . . W22 W13 h3 . . . W23 O3 Nível 3 X . . . 3 (a) (b) (c) X . . . 2 X1 1 1 _O 2

Figura 4.3: Variação HMC-LMLP-Predicted. (a) treinamento de uma MLP para o primeiro nível hierárquico; (b) utilização da saída da primeira MLP para complementar os vetores de atributos dos exemplos utilizados para o treinamento daMLPassociada ao segundo nível; (c) utilização da saída da segundaMLPpara complementar os vetores de atributos dos exemplos utilizados para o treinamento daMLPassociada ao terceiro nível.

O processo de treinamento dessa nova variação do método HMC-LMLPé similar ao processo de treinamento da variação anterior. Primeiramente, uma rede neural é associada ao primeiro nível hierárquico, como ilustrado na Figura4.3(a). Essa rede neural é treinada utilizando todos os exemplos de treinamento X1_{, já que todos os exemplos são classificados em classes do}

primeiro nível. Novamente, de maneira a permitir que uma rede neural prediga um conjunto de classes, cada neurônio de saída de umaMLPassociada ao nível l é associado a uma classe per- tencente ao nível l. Como a hierarquia ilustrada na Figura4.1possui duas classes no primeiro nível, a redeMLP associada ao segundo nível possui dois neurônios de saída. A rede neural possui uma camada escondida, e qualquer algoritmo de aprendizado para redesMLPpode ser utilizado em seu treinamento.

A rede neural associada ao segundo nível da hierarquia, como ilustrado na Figura 4.3(b), também possui uma camada escondida, e tem seu processo de treinamento executado de maneira similar à rede associada ao primeiro nível. A única diferença é que sua entrada é agora formada pelos exemplos de treinamento classificados em classes localizadas no segundo nível hierárquico (X2_{). Os vetores de atributos desses exemplos são também complementados com as}

para classificar os exemplos no nível 1. Assim, as saídas da rede neural anterior complementam os vetores de características dos exemplos no segundo nível. A vantagem de se utilizar os vetores de características complementados para o treinamento das redesMLPé que a dependência entre as classes é incorporada no processo de aprendizado. Ideia similar foi proposta recen- temente em (Cherman et al., 2012) e também em (Read et al., 2009) e (Dembczynski et al.,

2010). Nesses trabalhos, as classes foram utilizadas para complementar os vetores de atributos dos exemplos de maneira a permitir que classificadores binários descobrissem sozinhos as dependências existentes entre as classes de problemas multirrótulo não hierárquicos.

O treinamento da rede neural associada ao terceiro nível hierárquico (Figura4.3)(c) segue o mesmo procedimento utilizado para o treinamento da rede neural no segundo nível. No exemplo ilustrado na Figura4.3, um modelo completo para uma hierarquia de três níveis foi construído. Esse procedimento de treinamento incremental pode ser utilizado em uma hierarquia de classes com um número de níveis qualquer. O processo de treinamento continua até que o último nível hierárquico seja alcançado.

Da mesma maneira que na variação HMC-LMLP-Labels, quando uma rede neural está sendo treinada para um nível específico, as redes MLP associadas aos níveis anteriores não são treinadas, pois seus respectivos treinamentos já ocorreram nas fases anteriores de indução (treinamento das MLPs associadas aos níveis anteriores). Quando uma redeMLP está sendo treinada para um nível l, a rede neural associada ao nível anterior é utilizada apenas para for- necer as saídas que serão utilizadas para complementar os vetores de atributos dos exemplos de treinamento no nível l. Assim, quando uma redeMLP é treinada para o nível l, suas entradas são obtidas fornecendo os exemplos de treinamento como entrada para a rede neural associada ao primeiro nível. A saída dessa rede neural é então utilizada para complementar os vetores de atributos dos exemplos utilizados no treinamento da rede neural associada ao segundo nível, que por sua vez fornece suas saídas para complementar os vetores de atributos dos exemplos usados no treinamento da próxima rede neural no próximo nível. Esse procedimento é executado até que a rede neural associada ao nível l seja alcançada.

Para a classificação de um novo exemplo, o mesmo é fornecido como entrada para a rede neural associada ao primeiro nível hierárquico, e a saída dessa redeMLPé então utilizada para complementar o vetor de atributos do exemplo. Esse vetor de atributos complementado com as saídas do nível anterior é então utilizado como entrada para a redeMLPassociada ao segundo nível. Isso é feito para se obter as predições no segundo nível, que por sua vez são utilizadas para complementar o vetor de atributos do exemplo. Esse vetor de atributos, complementado com as predições no segundo nível, é fornecido como entrada para a rede MLPresponsável pelas predições no terceiro nível. Esse processo é repetido até que a última redeMLP, associada ao último nível hierárquico, seja alcançada. É importante observar que o complemento dos vetores de atributos não é incremental, ou seja, o vetor de atributos de um exemplo sendo utilizado como entrada de uma rede MLPassociada ao nível l é apenas complementado com as saídas fornecidas pela redeMLPassociada ao nível l − 1.

tores de atributos realmente resulta em melhora do desempenho de classificação, duas outras variações não incrementais do métodoHMC-LMLPforam implementadas. A primeira utiliza as classes verdadeiras dos exemplos para complementar seus vetores de atributos (HMC-LMLP- True), e a segunda não utiliza nenhuma informação de classes para complementar os vetores de atributos, ou seja, apenas os valores originais dos atributos dos exemplos são utilizados (HMC- LMLP-NoLabels). Essas duas variações são apresentadas nas próximas seções.

4.3 Classes Verdadeiras como Complementação dos Ve-

No documento Redes neurais e algoritmos genéticos para problemas de classificação hierárquica... (páginas 94-97)