• Nenhum resultado encontrado

Projetar X no subespaço dos d primeiros eixos (denote por X ′ os dados projetados);

3.6 Roto-projeção otimizada para ensembles

lacionada com a dimensionalidade do problema e, portanto, alinhada com as van- tagens apresentadas no início da Seção 3.4. Quanto menor a dimensão do espaço n-dimensional, maior será T2 ou ainda, por uma ótica estatística, quanto maior a representatividade das instâncias (maior M), maior T2. Assim, essa medida foi es- colhida para prover algum indício sobre a redução da complexidade dos dados trans- formados pela ORP.

Em suma, a otimização da roto-projeção apresenta potencial para redução da complexidade dos dados e/ou do modelo induzido posteriormente. Adicionalmente, a expectativa é que esse fato também culmine com a indução de modelos com me- lhores desempenhos. Contudo, a transformação é fortemente dependente do arranjo conformacional das instâncias do conjunto de treinamento, da SLT e do processo de otimização. Essas dependências fazem com que a transformação possa não suprir, ou suprir parcialmente, as expectativas nela depositadas. Ainda assim, a ORP tem valor como heurística de aproximação para construção de ensembles de modelos. Na próxima seção são apresentados alguns aspectos da ORP que tornam interessante sua aplicação na construção de ensembles.

3.6 Roto-projeção otimizada para ensembles

Alguns aspectos intrínsecos ao problema da otimização da roto-projeção são in- tuitiva e previamente esperados no contexto de ML e podem impactar negativamente no desempenho de generalização do modelo posteriormente induzido. Por exemplo, algumas SLTs não dispõem de parâmetros para controle da complexidade ou dispo- nibilizam apenas parâmetros que interferem indiretamente, mas de forma complexa, não linear e incerta. Nesse caso, a técnica diretora deve adotar a mesma configuração de parâmetros a ser utilizada posteriormente, tornando a transformação suceptível ao overfitting do modelo final.

O processo de otimização da roto-projeção também apresenta um aspecto de imprecisão ou de estocasticidade localizada. Intuitivamente, a expectativa sobre a otimização da roto-projeção é que o algoritmo utilizado encontre uma única solução ótima dada por (Θ∗, d). Porém, a função-objetivo φA

(X, Y | (Θ, d)) apresenta al- gumas particularidades que tornam o problema altamente multimodal, multi-platôs e/ou com grandes regiões de platô ótimas. Conforme mencionado no capítulo ante- rior (Seção 2.2), o modo como alguns modelos produzem suas saídas, sem qualquer ordinalidade intrínseca, impede que uma direção de rotação seja precisa e inequivoca- mente definida. As saídas discretas produzidas por árvores de decisão, por exemplo, comprometem a relação de ordem das instâncias na saída do modelo, inviabilizando uma estimativa precisa do erro para uma determinada direção de rotação. Em outras

palavras, trata-se da incapacidade ou imprecisão característica do modelo em pro- duzir uma distribuição de probabilidade de saída adequada, pertinente e passível de ranqueamento para uma instância por ele classificada. Esse aspecto compromete a relação de ordem entre as instâncias na saída do modelo e, conseqüentemente, produz um impacto negativo na precisão da estimativa da direção de rotação (até mesmo da projeção) no processo de otimização da roto-projeção.

Na Figura 3.18 é representado o particionamento produzido por uma árvore de decisão (decision stump) em um problema linearmente separável, com duas classes (diferenciadas por pontos em vermelho e azul), em seis ângulos de rotação distintos (R(θ1) . . . R(θ6)). Observa-se que, para qualquer uma das direções de rotação, o erro

de classificação é indiferente e igual a zero. Esse efeito faz com que inúmeras direções de rotação produzam sempre o mesmo erro de classificação, uma característica de uma grande região de platô ótima e/ou de multi-platôs ótimos. Esse aspecto faz com que um algoritmo de otimização estocástica possa encontrar o ótimo em qualquer parte do platô, ou seja, apresente algum tipo de estocasticidade localizada na região de platô ótima. Essa imprecisão sobre o ótimo tem impacto direto no erro de generalização do modelo, especialmente quando os dados de treinamento não são estatisticamente representativos.

Figura 3.18: Imprecisão da direção de rotação ótima no processo de otimização.

Somente em casos muito particulares é que modelos não-ordinais devem possi- bilitar uma única solução (única direção de rotação). Adiciona-se a isso o fato de

3.6 Roto-projeção otimizada para ensembles

direções distintas poderem apresentar erros iguais ou muito próximos, mas em clas- ses diferentes do problema. Assim, mesmo que um algoritmo de otimização ideal seja capaz de obter sempre o ótimo global, é possível que a direção de rotação seja distinta, uma vez que a função-objetivo pode apresentar também características mul- timodal. Ainda sobre a otimização, é amplamente conhecida a atração que ótimos locais exercem no processo de busca pelo ótimo global. Logo, uma metaheurística qualquer de minimização do erro da roto-projeção está sujeita a estacionar a busca em mínimos locais. Isso significa que soluções subótimas podem ser encontradas de forma a proporcionar erros em diferentes partes do espaço de instâncias.

A projeção em subespaço também apresenta características de multimodalidade. Subespaços diferentes podem proporcionar erros mínimos, porém idênticos para uma mesma SLT. Uma projeção em um subespaço d-dimensional (0 < d < n) pode ser indiferente para uma SLT que realiza algum tipo de ponderação ou seleção dos atri- butos. Por exemplo, no particionamento realizado pela árvore de decisão induzida na modelagem apresentada na Subseção 3.4.1, Figura 3.8, o subespaço x2 não foi uti-

lizado na indução da árvore, tornando indiferente a projeção para o desempenho de classificação.

Os aspectos supramencionados, além de outros, embutem na ORP uma compo- nente de imprecisão ou, em outras palavras, uma estocasticidade localizada da direção resultante da rotação e/ou do subespaço de projeção decorrente da inércia da saída da função-objetivo. É exatamente essa componente que torna a ORP interessante para construção de MCs diversos e acurados para composição de um ensemble de modelos. Em oposição à filosofia de concepção do método RB de Rodríguez e colaboradores (RODRIGUEZ; KUNCHEVA; ALONSO, 2006) que objetiva, diretamente, a diversificação

das direções de rotação, o método proposto explora a componente de imprecisão da ORP para construção dos MCs. Esse novo EM, referido como ORPE, está descrito no pseudo-código do Algoritmo 3.2.

A idéia fundamental do método ORPE é utilizar pontos de partida aleatórios no espaço de busca como artifício para aumentar a probabilidade de uma metaheurística qualquer encontrar soluções de roto-projeção distintas para cada MC, contribuindo assim para a diversidade no ensemble.

O método ORPE permite a implementação paralela da construção dos MCs. Contudo, ressalta-se que, por fundamentar-se em otimização, o método ORPE não objetiva e não tem a pretensão de superar outros EMs no quesito do tempo computa- cional demandado para construção do ensemble. Nesse aspecto, ORPE configura-se, obviamente, como um EM de custo computacional relativa e comparativamente alto, especialmente em bases de dados com muitos atributos.