• Nenhum resultado encontrado

Ensembles e métodos de construção

2.3 Métodos de construção de ensembles

2.3 Métodos de construção de ensembles

A combinação de modelos de predição de paradigmas diferentes é uma estratégia para construção de MCs diversos e acurados (MICHALSKI; TECUCI, 1994; ROKACH, 2010). Tal abordagem tem sido referida na literatura de reconhecimento de padrões como sistemas de múltiplos classificadores. Embora haja ambigüidade quanto ao uso da terminologia, “Método de ensemble” (EM) é, com maior freqüência, utilizado para se referir aos ensembles constituídos por modelos da mesma SLT, sendo essa a conotação utilizada neste trabalho.

2.3.1 Métodos clássicos e suas variantes

Os EMs clássicos geralmente utilizam intrinsecamente uma componente de per- turbação estocástica para a produção de diversidade. Essa componente está inserida nos principais EMs que manipulam as instâncias ou mesmo os subespaços, tal como bootstrap (amostragem) no método de Breiman (BREIMAN, 1996) ou seleção aleatória de subespaços no método de Ho (HO, 1998). A seguir são sumariados alguns dos mais importantes métodos da literatura e algumas variantes, incluindo uma produzida no curso do trabalho de doutorado referente a esta tese.

Bagging e Wagging

Bagging (BREIMAN, 1996), derivado de “bootstrap aggregation”, é um método baseado em bootstrap que constrói os MCs com diferentes amostras das instâncias re- tiradas do conjunto de treinamento. L subconjuntos são aleatoriamente amostrados, com reposição, do conjunto de treinamento original. Cada subconjunto, denominado réplica bootstrap, é utilizado para construir um MC. O ensemble é constituído, por- tanto, por L modelos induzidos com as diferentes réplicas bootstrap. A ambigüidade entre os MCs é decorrente das diferenças entre as réplicas. Finalmente, as predições dos modelos criados são integradas, tipicamente por meio de votação (voto majoritá- rio) em tarefas de classificação ou pela média (aritmética ou ponderada) em regressão, para produzir a saída do ensemble.

Wagging (Weight aggregation) (BAUER; KOHAVI, 1999) é uma variante do método

Bagging que requer que a SLT utilizada para construção de cada MC opere com pesos nas instâncias de treinamento. Wagging pode ser entendido como um método que realiza amostragem do conjunto de treinamento considerando os pesos aleatoriamente atribuídos às instâncias para indução de cada MC. Os pesos refletem a probabilidade de ocorrência da instância em cada amostra. A proposição original de Wagging utiliza uma distribuição Gaussiana, com média zero e desvio padrão pré-determinado, para

adicionar perturbações aleatórias aos pesos das instâncias.

Boosting e AdaBoost

Boosting (SCHAPIRE, 1990) é um método geral, ou um precursor de uma classe de métodos, para aumentar o desempenho de indutores de classificadores fracos6. Di-

ferente de Bagging e Wagging, o mecanismo de amostragem iterativo visa o reforço da amostra, realizada a cada iteração, com instâncias incorretamente classificadas pelos modelos induzidos nas iterações anteriores. Os classificadores fracos induzidos nesse processo são então combinados em um ensemble para dar origem a um classificador forte (acurado).

O AdaBoost (Adaptive Boosting) (FREUND; SCHAPIRE, 1996) é uma variante

de Boosting amplamente conhecido e estudado pela comunidade de aprendizado de ensemble. No método AdaBoost cada instância do conjunto de treinamento possui uma probabilidade de seleção associada por meio de um peso. Assim, a amostragem aleatória das instâncias do conjunto de treinamento considera essa probabilidade asso- ciada. Inicialmente, o mesmo peso é associado à todas as instâncias. A cada iteração, a probabilidade de seleção de cada instância é alterada em função do desempenho do classificador criado. Esse procedimento iterativo gera um conjunto de classifica- dores que se complementam entre si. Shapire e Freund (SCHAPIRE; FREUND, 1998)

mostraram que o sucesso do AdaBoost é resultante da sua propriedade de aumentar a margem7, o que torna seu objetivo similar ao das máquinas de vetores de suporte

(SVM8).

Métodos de subespaços aleatórios

Diferentemente de Bagging, Wagging e AdaBoost, alguns métodos utilizam a pro- jeção das instâncias em subespaços como mecanismo para diversificação e/ou acurácia dos MCs. A vantagem de alguns desses métodos é inerente à redução da dimensiona- lidade e, conseqüentemente, cria-se a possibilidade de utilização em bases de dados de grandes dimensões com SLTs de alto custo computacional. O clássico representante desse tipo de estratégia é o método de subespaços aleatórios (RSM9) (HO, 1998).

Ao invés de construir os MCs a partir das instâncias integrais, no que se refere aos seus atributos, o RSM utiliza amostras do conjunto dos atributos (subespaços). Cada MC é induzido utilizando as instâncias projetadas no subespaço formado pelos atributos aleatoriamente selecionados. A mesma SLT pode ser, portanto, empregada

6Um classificador fraco é um modelo apenas ligeiramente melhor do que um procedimento de

rotulação aleatória de instâncias.

7Na teoria de máquinas de vetores de suporte, margem é a distância de um hiperplano de separação

para instâncias mais próximas a ele.

8

Support Vector Machines.

9

2.3 Métodos de construção de ensembles

para indução dos modelos, uma vez que a diversificação é decorrente dos diferentes subespaços.

Algumas variantes do RSM tradicional também são encontradas na literatura. Tsymbal e colaboradores (TSYMBAL; PUURONEN; PATTERSON, 2003; TSYMBAL; PE- CHENIZKIY; CUNNINGHAM, 2005) utilizaram uma seleção probabilística de atributos,

ao invés de uma seleção totalmente aleatória, e obtiveram ensembles com maior di- versidade e, conseqüentemente, maior acurácia. Ferreira e colaboradores (FERREIRA et al., 2007) utilizaram o RSM no espaço das componentes principais visando a cons- trução de um ensemble de ANNs (MLPs) para regressão em um conjunto de dados espectroscópicos de cafés obtidos por uma língua eletrônica. Essa variante do mé- todo, denominada método de subespaços aleatórios do espaço de componentes prin- cipais (RSM-PCS10), busca usufruir das peculiaridades de um espaço de atributos

descorrelacionados (componentes principais) intrínsecas à transformação caracterís- tica da PCA. Os resultados obtidos pelo RSM-PCS foram estatisticamente superiores ao RSM tradicional e a uma MLP treinada com todos os atributos.

Ferreira e colaboradores (FERREIRA et al., 2009) adaptaram a proposta do RSM- PCS para usufruir simultaneamente das características do espaço dos atributos e do espaço das componentes principais. Essa outra variante constrói um subconjunto de MCs a partir dos dados originais, do espaço de características original das instân- cias, e um outro subconjunto de MCs a partir dos dados projetados no espaço das componentes principais. Esse método, denominado método de subespaços aleatórios do espaço das instâncias e das componentes principais (RSM-IPCS11), foi validado

para ensembles de árvores de decisão induzidas pelo C4.5 (QUINLAN, 1993) em 24

bases de dados obtidas do repositório da Universidade da Califórnia em Irvine (UCI) (FRANK; ASUNCION, 2010). O RSM-IPCS apresentou resultados expressivos quando comparado ao RSM e à variante RSM-PCS. O RSM-IPCS construiu ensembles mais acurados e estatisticamente superiores àqueles construídos pelo RSM-PCS para a grande maioria das bases utilizadas e, ainda, superiores ou sem diferenças estatisti- camente significativas àqueles obtidos pelo RSM tradicional. RSM-IPCS apresentou também uma redução na variância das predições para a maioria das bases de bench- mark. Os resultados obtidos conduziram à conclusão de que RSM-IPCS é no mínimo igual ao melhor dentre os dois outros métodos que operam em um único espaço (RSM e RSM-PCS). O pseudo-código do método RSM-IPCS utilizado por Ferreira e colaboradores (FERREIRA et al., 2009) é apresentado no Algoritmo 2.1.

A proposta original do RSM-IPCS está focada na utilização de toda a variância

10

Random Subspace Method – Principal Components Space. 11

Algoritmo 2.1 : Método RSM-IPCS (FERREIRA et al., 2009).