Meta-Algoritmos Auxiliares - Técnicas para Mineração de Dados

3.3 Técnicas para Mineração de Dados

3.3.5 Meta-Algoritmos Auxiliares

O Boosting é um meta-algoritmo usado em algoritmos preditivos, que tem como objectivo

melhorar a precisão dos modelos. Esta técnica conhecida surgiu de uma questão colocada por Michael Kearns: ―poderá um conjunto de modelos preditivos fracos, originar um modelo preditivo forte?‖ Entenda-se como modelo preditivo fraco um modelo que apresenta uma fraca correlação com a classificação correcta, fornecendo resultados apenas ligeiramente melhores do que a tentativa aleatória do resultado. Já um modelo preditivo forte é um modelo que apresenta uma elevada correlação com a classificação correcta [Kearns, 1988]. A questão de Kearns teve a sua resposta no trabalho de Schapire publicado em 1990, onde o autor apresenta o seu trabalho sobre a importância de modelos preditivos fracos em relação a modelos fortes. Este trabalho de Schapire esteve na origem da técnica Boosting tal como é conhecida nos dias de hoje [Schapire, 1990].

Existem vários algoritmos para a implementação de Boosting, não serão abordados as várias vertentes, apenas se fará uma descrição não exaustiva sobre o comportamento mais vulgarmente utilizado dos algoritmos de Boosting. De forma simplificada, os algoritmos de boosting permitem obter melhorias significativas na precisão dos modelos criados, ao criar de forma iterativa modelos preditivos – que isolados são considerados fracos – que vão sendo unificados num só modelo, que terá uma elevada precisão. Antes de se iniciar a geração do modelo seguinte, os registos são repesados, e às variáveis com menos expressão no modelo anterior, é dado um peso maior, para que o modelo seguinte se foque em prever eficazmente estes casos. Juntos, estes modelos formam um modelo capaz de classificar novos registos de forma eficaz, usando um conjunto de regras induzidos a partir de todos os modelos gerados [Freund, 1995] [Krause & Singer, 2004]. A forma como estas regras são induzidas dos vários modelos gerados é abordada posteriormente neste capítulo.

Bagging

A técnica de bagging, também conhecida como bootstrap aggregating, é um meta-algoritmo para modelos de classificação e regressão. Como o boosting, o bagging permite obter melhorias nos modelos no que toca à estabilidade e a exactidão das previsões. Para além da melhoria na estabilidade e na exactidão dos resultados, a técnica de bagging permite reduzir o overfitting e a variância dos resultados. Esta técnica foi proposta por Leo Breiman em 1996, com o intuito de

melhorar um modelo preditivo ao agregar classificadores modelados com data-set de treino gerados aleatoriamente [Breiman, 1996].

De forma simplificada, a técnica de bagging consiste em gerar várias versões de um modelo preditivo, e agregá-las de forma a criar um modelo de previsão agregado. O modelo agregado resultante faz as previsões dependendo do tipo da variável dependente, e dependendo também da forma como é definida o modo como é combinada as regras dos vários classificadores, normalmente para as variáveis numéricas é feita uma média sobre as previsões geradas pelos modelos agregados, caso seja uma classe, a classificação é feita por sistema de voto usando também as previsões dos modelos agregados, no entanto é possível usar diferentes técnicas de combinação das previsões [Breiman, 1996].

A geração das várias versões do modelo de previsão é feita da seguinte maneira, a partir de um data-set de treino com tamanho , são gerados novos data-sets de treino ( ), com tamanho igual a , estes novos data-sets são gerados escolhendo observações aleatórias de e também por substituição. Quer isto dizer que algumas das observações de podem estar repetidas em . Se , para um valor de elevado, o data-set é esperado ter 63.2% de observações únicas de , sendo as restantes 36.8% observações repetidas. A está forma de gerar

os data-sets de treino, é dado o nome de bootstrap sample [Breiman, 1996].

Esta técnica permite obter melhorias significativas na exactidão das previsões na maioria dos casos, a factor chave para isto, é a instabilidade dos modelos preditivos, se um data-set de treino com ruído influenciar significativamente no modelo gerado, neste caso a técnica de bagging melhora a exactidão do modelo [Breiman, 1996]. O tema da instabilidade é estudado no trabalho de Breiman [1994], onde é referido que redes neuronais, árvores de classificação e regressão e um subconjunto de uma regressão linear são instáveis, enquanto o método k-nearest neighbor é estável.

Combinando Regras no Boosting e Bagging

Quando se usa técnicas como o boosting e o bagging, é necessário definir o modo como será feita a classificação dos novos registos, ou seja, como serão utilizados as previsões geradas pelos vários classificadores que constituem o modelo de boosting/bagging. Existem várias técnicas de implementar a forma com que as previsões dos vários modelos são combinadas, no entanto, geralmente, para as variáveis dependentes categóricas é usado um sistema de voto simples, voto ponderado ou é utilizado a previsão que oferece melhor probabilidade, já para as variáveis

dependentes contínuas, é usada a média ou mediana dos valores previstos pelos classificadores [Skurichina & Duin, 2000].

Com o sistema de voto simples, são analisadas as previsões dos vários classificadores, e a classe que reunir mais votos, ou seja, a que for dada como classe prevista por mais classificadores, é a classe seleccionada como previsão. Já o sistema de voto ponderado, leva em consideração a probabilidade de cada uma das regras que fez a previsão. Normalmente é usada como função estatística de análise a média das probabilidades. O novo registo será classificado como pertencendo à classe que apresentar uma maior probabilidade média. No caso da técnica ―melhor probabilidade‖, é escolhida a classe indicada pelo classificador que possui a previsão com melhor probabilidade.

Classificador Classe Prevista Probabilidade

C1 A 80%

C2 B 79%

C3 A 80%

C4 A 90%

C5 B 89%

Tabela 4 – Resultados de Classificação

De forma a exemplificar as três técnicas referidos anteriormente, é apresentado de seguida um caso de exemplo. Tomemos como hipótese, a modelação de um modelo preditivo que faz uso da técnica de bagging, composto por cinco classificadores {C1..C5}, e que os novos registos pertencem a um conjunto possível de classes igual a {A,B}. Os resultados da classificação de um novo registo r são expressos na Tabela 4, onde é apresentada a classificação e a respectiva probabilidade, pelos vários classificadores que constituem o modelo. Pela observação da tabela, podemos concluir que caso seja utilizado o método de voto simples, o novo registo será classificação como pertencendo à classe A, pois é a que reúne mais votos (3 votos) enquanto a classe B só reúne 2 votos. Em caso de se usar o método de voto ponderado, o novo registo r seria classificado como pertencendo à classe B, pois apesar de A ter mais votos, a média das probabilidades para B é de 84% e a de A é de 83.33%. Por fim, se fosse utilizado a técnica ―melhor probabilidade‖, o novo registo seria classificado como A, pois o classificador que possui a maior das probabilidades é o C4 com uma probabilidade de 90%, classificando o novo registo como pertencendo à classe A.

De uma forma geral, o uso do voto simples é normalmente a pior escolho, no que diz respeito à qualidade preditiva do modelo final. O voto ponderado é, na maioria dos casos, a melhor escolha tanto para bagging como para boosting [Skurichina & Duin, 2000].

Tipo de Variável Bagging Boosting

Variáveis Contínuas Média Ponderada Mediana Ponderada

Mediana Ponderada

Variáveis Categóricas Voto Simples ―Melhor Probabilidade‖

Voto Ponderado

Tabela 5 – Síntese da Combinação de Regras

Na Tabela 5, são resumidos os métodos de combinação de regras disponibilizados pelo software (secção 2.4) mediante o tipo de variável dependente, e o tipo de meta-algoritmo em questão

Capítulo 4

4 Churn em Seguros, Um Caso de Estudo

No documento Previsão de churn em companhias de seguros (páginas 72-77)