Modelos RN1, RN2 e RN3 – Rede Neuronal

4.2 Modelos Implementados

4.2.4 Modelos RN1, RN2 e RN3 – Rede Neuronal

Durante a realização dos trabalhos foram implementados mais três modelos de previsão de churn usando redes neuronais (secção 3.3.3). A implementação dos três modelos foi necessária devido à necessidade de comparar o desempenho do modelo de redes neuronais, com (e sem) o uso de meta-algoritmos auxiliares, como é o caso do boosting e do bagging (secção 3.3.5). Assim, foram implementados três algoritmos (RN1, RN2 e RN3). O RN1 é a implementação simples da rede neuronal, sem o uso de qualquer meta-algoritmo auxiliar, o RN2 difere do RN1 por fazer uso do

boosting, e o RN3 por fazer uso do bagging. A configuração dos três modelos anteriores é

Build Options Modelo

RN1 RN2 RN3

Objectivo Standard

Model Bagging Boosting

Tipo de Rede Neuronal MLP MLP MLP

Hidden Layers Automático Automático Automático Regras de

Paragem

Tempo de Treino 15 15 15

Ciclos de Treino - - -

Precisão Mínima - - -

Regra de para targets Categóricos

(bagging) N/A Maior Probabilidade Média N/A Regra de para targets Contínuos

(bagging) N/A Média N/A

Nº de Componentes no

Boosting/Bagging N/A 10 10

Overfit Prevention Set 30% 30% 30%

Tabela 12 – Configuração dos Modelos de Redes Neuronais

De seguida é feita uma breve descrição e explicação do significado de cada uma das opções de configuração expressas na Tabela 12:

- Objectivo - Aqui é definido o objectivo do modelo que se quer modelar, é possível definir se se quer modelar um novo modelo ou continuar o treino de um modelo já existente. Neste caso a informação já processada mantém-se no modelo e apenas os novos registos ou registos alterados são dados como input ao processo de treino do novo modelo. Isto permite obter resultados de forma muito mais rápida, pois evita aceder e realizar processamento desnecessário. Para além disto, é possível definir se queremos criar um modelo standard ou se queremos um modelo que reúna vários, ao usar uma técnica de melhoria dos resultados, tendo disponíveis as opções de usar o meta-algoritmo boosting e o bagging (secção 3.3.5).

- Tipo de rede neuronal - Representa o tipo de rede neuronal que ser quer implementar, que, entre outras coisas, definirá a forma com que os neurónios interagem entre si e como são organizados internamente no modelo. Os tipos suportados pelo software são o

Multilayer Perceptron (MLP), e o Radial Basis Function (RBF). O MLP apresenta, para casos com um elevado número de relações complexas, um elevado tempo de treino e de teste. Por outro lado, o RBF apresenta tempos bastante inferiores ao MLP. No entanto, apesar dos tempos elevados impostos pelo MLP, o seu poder preditivo suplanta largamente o RBF. Por esta razão, o tipo de rede escolhido para a implementação dos modelos foi o MLP. - Hidden layers - Este parâmetro permite indicar o número de neurónios em cada hidden

layer do modelo. É possível definir se se quer que o número seja automaticamente

calculado (automático) ou não, definindo-se neste caso o número de neurónios em cada uma das duas layers. Para este parâmetro foi usado o valor por omissão – automático – sendo que neste caso a RN é criada com apenas uma hidden layer, e o seu número de neurónios é calculado automaticamente durante o processo.

- Regras de paragem – Estas definem as condições de paragem de treino da rede neuronal:

o Tempo de Treino - Permite definir o tempo máximo de treino de um modelo em minutos. Caso seja um modelo que usa boosting ou bagging, este tempo refere-se ao tempo máximo por componente. Para este parâmetro foi utilizado o valor por omissão de 15 minutos, pois é um valor que, devido a volumetria de dados com que se estava a trabalhar, se achou ser razoável para o processamento do modelo. o Ciclos de treino - Define o número máximo de ciclos de treino permitido. Esta condição de paragem está por omissão desactivada. Foi feito um pequeno teste preliminar e conclui-se que o uso desta condição não era necessária na implementação do modelo em questão, pelo que se manteve a opção inactiva. o Precisão mínima - Com esta condição activa, o processo de treino vai prosseguir

até atingir o valor de precisão indicado pela condição. Esta condição de paragem está por omissão inactiva. Alguns testes que foram realizados permitiram concluir que o uso desta condição não era necessária na implementação do modelo em questão. Como tal, manteve-se a opção inactiva.

 Regra para targets categóricos - Este parâmetro apenas é usado no caso de uso da técnica de bagging e caso a variável dependente seja categórica. Define a técnica que o modelo final irá usar para fazer a previsão da variável target. A classificação pode ser feita usando três técnicas distintas: votação, maior probabilidade ou maior probabilidade média.

Após alguns testes preliminares, concluiu-se que a técnica que melhores resultados oferecia era a da maior probabilidade média.

- Regra para targets contínuos - Parâmetro apenas usado no caso de uso da técnica de

bagging e em situações em que a variável dependente seja contínua. Pode-se escolher

duas formas distintas para este parâmetro: a mediana e a média dos valores previstos pelos vários modelos. O valor por omissão é a média (mean). Esta opção foi preservada, já que não é relevante para o nosso modelo, uma vez que a variável target do modelo implementado é categórica.

- Nº de componentes no boosting/bagging - Este parâmetro permite definir o número de modelos que se pretende construir, no caso de estarmos a usar uma das técnicas de

bagging ou boosting. Este parâmetro foi definido com o valor de 10, pois é considerado

um valor mediano, não implicando excesso de processamento, e uma vez que oferece uma melhoria significativa na precisão do modelo final.

- Overfit prevention set - Nas redes neuronais, o data-set de treino é internamente separado de forma a criar dois data-sets distintos, um para a construção do modelo, e outro chamado de overfit prevention set. Este último data-set é usado para identificar possíveis erros durante o processo de treino. O valor de omissão de 30% foi usado. Nota: As técnicas de combinação das regras dos vários modelos que constituem um modelo de boosting não são possíveis de especificar, pois ao contrário do bagging onde é possível definir estas técnicas, para o boosting é usado sempre, para as variáveis categóricas o voto ponderado, e para as variáveis contínuas a média ponderada.

No documento Previsão de churn em companhias de seguros (páginas 94-97)