Métricas de avaliação da qualidade dos modelos

5. Análise preditiva: classificação

5.2. Métricas de avaliação da qualidade dos modelos

A Fig. 5-2 permite observar que existem atributos relevantes com boa pontuação, como por exemplo os atributos “classe_diassemfrequencia” e “classe1_diassemfrequencia” nas sugestões dadas, que são, na prática, diferentes classificações de um mesmo valor. Apesar de, como indica Gama (Gama et al., 2017), o processo de construção de uma árvore selecionar os atributos a usar resultando modelos que tendem a ser bastante robustos em relação à adição de atributos irrelevantes e redundantes não podemos perder de vista que o objetivo deste trabalho é o de obter modelos preditivos que conduzam a perfis acionáveis. Torna-se pois necessário considerar combinações de atributos de entrada que

75 permitam atingir esse objetivo sem que com isso se degrade de forma significativa a precisão dos modelos. Neste sentido partiu-se para a construção dos modelos, utilizando num primeiro modelo todos os atributos sugeridos, construindo-se depois outros modelos com variações no conjunto dos atributos de entrada através de remoção de atributos redundantes observando-se a complexidade da árvore resultante no que diz respeito à profundidade e número de nós, e obtendo-se a precisão de cada modelo.

Figura 5-2 – Pontuação dos atributos atribuída pelo algoritmo Microsoft Decision Trees

a) Geral b) Fitness c) Atividades Aquáticas

A Tab. 5-1 apresenta os modelos criados tendo por base os dados da tabela “Retencao” do DW - pelo que dizem respeito aos Utentes que frequentaram qualquer uma das atividades de fitness ou aquáticas - e os atributos utilizados em cada um.

A Tab. 5-2 apresenta os modelos criados, a profundidade da árvore criada pelo modelo e o número de nós da árvore. Nesta tabela, são apresentados os modelos adicionais com o nome Ret11, Ret21, Ret31, Ret71, Ret81 e Ret91 que foram obtidos com os mesmos atributos dos modelos com o mesmo prefixo, Ret1, Ret2, Ret3, Ret7, Ret8 e Ret9 respetivamente, mas com o parâmetro MINIMUM_SUPPORT = 50 para que os nós da árvore nunca tenham menos de 50 registos, número que consideramos suficientemente significativo para justificar uma ação. A observação desta tabela permite constatar a redução da profundidade da árvore e do número de nós relativamente ao modelo inicial, em que o parâmetro apresentava o valor por defeito (MINIMUM_SUPPORT = 10).

76 Tabela 5-1 - Atributos utilizados nos modelos preditivos

Modelo Atributos utilizados

Ret1

Atividade_aquaticas, Atividade_atletismo, Atividade_especiais, Atividade_fitness, Atividade_raquete, Classe_diassemfrequencia, Classe_freqmedia, Classe_freqmediaaulas, Classe_idade, Classe_mesesinscricao, Classe_Naulas, Classe_nfrequencias, Classe_Rationfreqcontratadareal, Classe_volnegocios,

Classe1_diassemfrequencia, Classe1_freqmedia, Classe1_mesesinscricao, Freqcontratadasemanal, Freqreal, Genero, Idade, Mesesinscricao, Natividades, Nreferencias, Nrenovacoes, Utilizacao_livre

Ret2

Freqcontratadasemanal, Genero, Idade, Mesesinscricao, Natividades, Nreferencias, Nrenovacoes, Utilizacao_livre Ret3

Atividade_aquaticas, Atividade_atletismo, Atividade_especiais, Atividade_fitness, Atividade_raquete, Classe_idade, Classe_Naulas, Classe_nfrequencias, Classe_Rationfreqcontratadareal, Classe_volnegocios,

Classe1_diassemfrequencia, Classe1_freqmedia, Classe1_mesesinscricao, Freqcontratadasemanal, Genero, Natividades, Nreferencias, Nrenovacoes, Utilizacao_livre

Ret7

Atividade_aquaticas, Atividade_atletismo, Atividade_especiais, Atividade_fitness, Atividade_raquete, Classe_idade, Classe_Rationfreqcontratadareal, Classe_volnegocios,

Classe1_diassemfrequencia, Classe1_freqmedia, Classe1_mesesinscricao, Freqcontratadasemanal, Natividades, Nreferencias, Nrenovacoes Ret8

Atividade_aquaticas, Atividade_fitness, Classe_volnegocios,

Classe1_diassemfrequencia, Classe1_freqmedia, Classe1_mesesinscricao, Freqcontratadasemanal, Natividades, Nrenovacoes

Ret9 Classe_idade, Classe_volnegocios, Classe1_diassemfrequencia, Classe1_mesesinscricao, Freqcontratadasemanal,

Nrenovacoes

Tabela 5-2 – Profundidade das Árvores e Número de Nós em cada modelo

Dados obtidos após o processo ETL em 31/Out/2017 na BD1

Modelo Profundidade da Árvore Número de Nós

Ret1 6 34 Ret11 5 26 Ret2 6 41 Ret21 5 33 Ret3 8 44 Ret31 6 28 Ret7 7 38 Ret71 6 30 Ret8 7 57 Ret81 6 37 Ret9 7 53 Ret91 7 45

A Tab. 5-3 apresenta a matriz de confusão e as métricas obtidas em cada um dos modelos. Como explicado anteriormente, uma vez que as formas de utilização nas atividades aquáticas e de fitness são diferentes, foram também criados modelos apenas para os Utentes que frequentaram fitness, apresentados na Tab. 5-4, e para os Utentes que frequentaram atividades Aquáticas, apresentados na Tab. 5-5. Nestes modelos, não foi considerado o atributo de frequência da atividade, nomeadamente o atributo “atividade_fitness” e “atividade_aquaticas”, respetivamente.

As métricas de avaliação dos modelos preditivos foram obtidas através do método Holdout, com os dados particionados em dois conjuntos disjuntos: o conjunto de treino com 70% dos dados, e o conjunto de teste com os restantes 30%.

77 Tabela 5-3 – Métricas Holdout dos modelos preditivos (tabela “Retencao”)

Dados obtidos após o processo ETL em 31/Out/2017 na BD1

Modelo

Matriz de Confusão

Accuracy Error

Rate Sensitivity Specificity

False Positive Rate Precision F-Score Previsto / Real F/F F/V V/F V/V Ret1 409 80 179 1844 89.59% 10.31% 95.87% 69.56% 30.44% 91.15% 93.44% Ret11 409 95 179 1829 89.09% 10.91% 95.06% 69.56% 30.44% 91.09% 93.03% Ret2 423 96 165 1828 89.61% 10.39% 95.01% 71.94% 28.06% 91.72% 93.34% Ret21 409 98 179 1826 88.97% 11.03% 94.91% 69.56% 30.44% 91.07% 92.95% Ret3 442 119 146 1805 89.45% 10.55% 93.81% 75.17% 24.83% 92.52% 93.16% Ret31 406 102 182 1822 88.69% 11.31% 94.70% 69.05% 30.95% 90.92% 92.77% Ret7 429 120 168 1795 88.54% 11.46% 93.73% 71.86% 28.14% 91.44% 92.57% Ret71 433 140 164 1775 87.90% 12.10% 92.69% 72.53% 27.47% 91.54% 92.11% Ret8 437 133 160 1782 88.34% 11.66% 93.05% 73.20% 26.80% 91.76% 92.40% Ret81 433 140 164 1775 87.90% 12.10% 92.69% 72.53% 27.47% 91.54% 92.11% Ret9 423 117 174 1798 88.42% 11.58% 93.89% 70.85% 29.15% 91.18% 92.51% Ret91 417 132 180 1783 87.58% 12.42% 93.11% 69.85% 30.15% 90.83% 91.95%

Tabela 5-4 – Métricas Holdout dos modelos preditivos (tabela “Fitness”)

Dados obtidos após o processo ETL em 31/Out/2017 na BD1

Modelo

Matriz de Confusão

Accuracy Error

Rate Sensitivity Specificity

False Positive Rate Precision F-Score Previsto / Real F/F F/V V/F V/V Fit1 159 27 94 1436 92.95% 7.05% 98.15% 62.85% 37.15% 93.86% 95.96% Fit11 128 23 125 1440 91.38% 8.62% 98.43% 50.59% 49.41% 92.01% 95.11% Fit2 86 14 167 1449 89.45% 10.55% 99.04% 33.99% 66.01% 89.67% 94.12% Fit21 131 70 122 1393 88.81% 11.19% 95.22% 51.78% 48.22% 91.95% 93.55% Fit3 193 141 60 1322 88.29% 11.71% 90.36% 76.28% 23.72% 95.66% 92.93% Fit31 161 115 92 1348 87.94% 12.06% 92.14% 63.64% 36.36% 93.61% 92.87% Fit7 138 83 115 1380 88.46% 11.54% 94.33% 54.55% 45.45% 92.31% 93.31% Fit71 161 115 92 1348 87.94% 12.06% 92.14% 63.64% 36.36% 93.61% 92.87% Fit8 154 98 99 1365 88.52% 11.48% 93.30% 60.87% 39.13% 93.24% 93.27% Fit81 152 98 101 1365 88.40% 11.60% 93.30% 60.08% 39.92% 93.11% 93.21% Fit9 155 113 98 1350 87.70% 12.30% 92.28% 61.26% 38.74% 93.23% 92.75% Fit91 161 115 92 1348 87.94% 12.06% 92.14% 63.64% 36.36% 93.61% 92.87%

Em termos de precisão dos modelos preditivos, a observação das Tab. 5-3, 5-4 e 5-5 permite constatar que não há ganhos significativos nas métricas dos modelos aplicados aos utentes das atividades aquáticas ou do fitness em separado relativamente aos modelos

Tabela 5-5 – Métricas Holdout dos modelos preditivos (tabela “Aquaticos”)

Dados obtidos após o processo ETL em 31/Out/2017 na BD1

Modelo

Matriz de Confusão

Accuracy Error

Rate Sensitivity Specificity

False Positive Rate Precision F-Score Previsto / Real F/F F/V V/F V/V Aq1 333 51 38 455 89.85% 10.15% 89.92% 89.76% 10.24% 92.29% 91.09% Aq11 334 69 37 437 87.91% 12.09% 86.36% 90.03% 9.97% 92.19% 89.18% Aq2 332 78 39 428 86.66% 13.34% 84.58% 89.49% 10.51% 91.65% 87.98% Aq21 304 60 67 446 85.52% 14.48% 88.14% 81.94% 18.06% 86.94% 87.54% Aq3 333 51 38 455 89.85% 10.15% 89.92% 89.76% 10.24% 92.29% 91.09% Aq31 334 69 37 437 87.91% 12.09% 86.36% 90.03% 9.97% 92.19% 89.18% Aq7 333 51 38 455 89.85% 10.15% 89.92% 89.76% 10.24% 92.29% 91.09% Aq71 334 69 37 437 87.91% 12.09% 86.36% 90.03% 9.97% 92.19% 89.18% Aq8 316 33 55 473 89.97% 10.03% 93.48% 85.18% 14.82% 89.58% 91.49% Aq81 309 42 62 464 88.14% 11.86% 91.70% 83.29% 16.71% 88.21% 89.92% Aq9 316 33 55 473 89.97% 10.03% 93.48% 85.18% 14.82% 89.58% 91.49% Aq91 309 42 62 464 88.14% 11.86% 91.70% 83.29% 16.71% 88.21% 89.92%

78 criados com base na globalidade dos utentes. Por outro lado, apesar das formas de utilização serem distintas, os atributos prioritários encontrados pelo algoritmo nestas situações são praticamente os mesmos que os encontrados pelo algoritmo quando aplicado sobre a tabela do DW que contém todos os utentes, embora com pontuações diferentes (Fig. 5-2) e dando origem a árvores de decisão também diferentes.

Considerando os modelos em que o número mínimo de exemplos por nó é igual ou superior a 50, que apresentam menos nós e uma menor profundidade da árvore do modelo, consequentemente menos dispersos, mais significativos e minimizando a ocorrência de

overfitting através da redução da fragmentação, constata-se pela observação da Tab. 5-3

que não há diferenças significativas, em termos das avaliações obtidas com as métricas entre os vários modelos que têm em consideração todos os utentes – maior diferença é de 1.51% na métrica Accuracy entre o modelo Ret11 e o modelo Ret91.

Embora o modelo Ret71 considere mais atributos a entrada que o Ret81 (Tab. 5-1) a matriz de confusão obtida é idêntica e consequentemente também as respetivas métricas. Contudo o conjunto dos atributos utilizados na prática pelo algoritmo diferem e são diferentes do conjunto de entrada indicado ao algoritmo para cada modelo. Do conjunto de entrada indicado na Tab. 5-1 o modelo Ret71 só utiliza os atributos “classe1_diassemfrequencia”, “atividade_aquaticas”, “classe1_mesesinscricao”, “nrenovacoes”, “classe_idade” e “freqcontratadasemanal”; e o modelo Ret81 adiciona o atributo “atividade_fitness” aos indicados para o modelo Ret71.

Há no entanto uma diferença no número de nós da árvore de decisão de um e outro modelo. O Ret71 apresenta uma árvore com 30 nós enquanto que o Ret81 apresenta uma árvore com 37 nós.

Assim sendo, não se podendo considerar haver um modelo substancialmente melhor entre os modelos criados, a escolha sobre o modelo a utilizar recai sobre um modelo criado com base em todos os utentes e que apresenta uma árvore em que os atributos utilizados são menos redundantes e com menos nós (Princípio da Parcimónia / “Occam’s Razor”), uma vez que reduz a complexidade e facilita a criação de ações na fase seguinte. Assim, com base nos modelos criados sobre os dados obtidos pelo processo ETL sobre a BD1 em

79 Out/2017 optou-se pelo modelo preditivo Ret71 apresentando-se o quadro de correlação dos seus atributos na Fig. 5-3.

Figura 5-3 - Quadro de correlação dos atributos utilizados no Modelo Ret71

Para complementar a avaliação deste modelo, utilizou-se também o método Cross-

Validation, tendo-se segmentado os registos em 10 partições de igual tamanho. Em cada

execução, uma das partições foi usada para testar enquanto as outras foram usadas para treino do modelo, repetindo o processo 10 vezes sendo que cada partição é usada apenas uma vez para testar o modelo. Com este método de avaliação obtém-se a matriz de confusão e os desvios padrão apresentadas na Tab. 5-6 que permite concluir, em função do coeficiente de variação, haver uma pequena variação nos estados corretamente classificados e muito pequena nos casos incorretamente classificados.

Tabela 5-6 – Matriz de confusão e desvios padrão do Modelo Ret71 obtidos com o método Cross-Validation

Classificações médias Desvios Padrão

Coeficiente de Variação

Previsto / Real Não

Desistente Desistente Não Desistente Desistente Não Desistente 100.300 36.702 6.784 5.622 0.068 0.153 Desistente 32.997 416.298 6.528 5.622 0.198 0.014

80 Os resultados das métricas obtidas com o método Cross-Validation indicadas na Tab. 5-7 são ligeiramente melhores do que as obtidas com o método Holdout nas métricas de avaliação geral (Accuracy com mais 0.21% e consequentemente a Error Rate com menos 0.21% e Precision com mais 1.12% e F-Score com mais 0.17%). No que diz respeito às métricas relacionadas com a classificação dos não desistentes, ocorre uma oscilação simétrica, melhorando a classificação dos verdadeiros negativos (Specificity com mais 2.71%) e piorando a dos falsos positivos (False Positive Rate com -2.71%). A métrica relacionada com a classificação dos verdadeiros positivos degrada-se em 0.79%.

Tabela 5-7 – Métricas Cross-validation do modelo preditivo Ret71

Dados obtidos após o processo ETL em 31/Out/2017 na BD1

Modelo Accuracy Error Rate Sensitivity Specificity False Positive

Rate Precision F-Score

Ret71 88.11 11.89 91.90 75.24 24.76 92.66 92.28

A árvore resultante do modelo, onde estão expressas as regras que caracterizam os nós, é apresentada na Fig. 5-4.

No documento Modelos para incrementoda retenção em serviços desportivos regulares : análise preditiva e ações de fidelização (páginas 93-99)