Condução dos Experimentos - Diretrizes para construção de modelos preditivos de abandono de usu

A condução dos experimentos consiste na construção dos modelos preditivos para todas as combinações possíveis entre os fatores para avaliação da respectiva performance em cada um dos tratamentos existentes. O processo realizado na execução dos experimentos é ilustrado na Figura 6-6.

150

As etapas, e as respectivas ações realizadas, são descritas abaixo.

6.3.1 Configuração do Tratamento

A entrada do processo para condução de um experimento consiste na especificação do tratamento com a informação dos níveis de cada um dos fatores. A condução de todos os experimentos (𝑁 = 72) implica na realização desse processo para todos os tratamentos. Para efeito de ilustração consideremos o tratamento abaixo Tabela 6-9.

Tamanho da Janela Disposição da Janela Tipos de Dados Técnica de Modelagem

8 dias Única Análise RFM Regressão Logística

Tabela 6-9: Exemplo de tratamento.

6.3.2 Leitura do Arquivo CSV

As informações relativas ao entendimento e preparação dos dados foram armazenadas em um arquivo CSV. A leitura do arquivo proporciona acesso a todos os atributos (𝑁 = 121) armazenados no grão usuário.

6.3.3 Seleção dos Atributos

De acordo com a configuração do tratamento, os atributos relacionados são selecionados para modelagem da técnica e os demais são desconsiderados na construção do classificador. No exemplo da Tabela 6.7, somente os atributos referentes aos níveis de fatores considerados são mantidos para etapa de modelagem.

#𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 = 1 (𝑡𝑎𝑚𝑎𝑛ℎ𝑜) × 1 (𝑑𝑖𝑠𝑝𝑜𝑠𝑖çã𝑜) × 10 (𝑡𝑖𝑝𝑜𝑠 𝑑𝑒 𝑑𝑎𝑑𝑜𝑠) #𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 = 10

Em outras palavras, do total de 121 atributos gerados são selecionados 10 deles relativos à janela de performance para permanência para as próximas etapas.

6.3.4 Seleção da Técnica de Modelagem

Após a seleção de todos os atributos a serem utilizados, a técnica de modelagem é também escolhida e configurada conforme explicitado no plano experimental. Para o exemplo

151

citado, a base de dados conta com 10 atributos formados e 1 rótulo. Esses dados são modelados através da técnica de Regressão Logística, conforme a configuração do tratamento.

6.3.5 Validação do Modelo

A validação consiste na aplicação de técnica para avaliar a capacidade de generalização de um modelo de classificação, a partir de um conjunto de dados. A técnica adotada é a validação cruzada. O conceito central das técnicas de validação cruzada é o particionamento do conjunto de dados em subconjuntos mutuamente exclusivos, e posteriormente, utiliza-se alguns destes subconjuntos para a estimação dos parâmetros do modelo (dados de treinamento) e o restante dos subconjuntos (dados de validação ou de teste) são empregados na validação do modelo.

O método de particionamento dos dados escolhido é o k-fold, com 𝑘 = 10. Esse método consiste em dividir o conjunto total de dados em k subconjuntos mutuamente exclusivos do mesmo tamanho e, a partir disto, um subconjunto é utilizado para teste e os k-1 restantes são utilizados para estimação dos parâmetros e calcula-se a precisão do modelo. Este processo é realizado k vezes alternando de forma circular o subconjunto de teste. Ao final das k iterações calcula-se a precisão sobre os erros encontrados obtendo assim uma medida mais confiável sobre a capacidade do modelo de representar os dados.

6.3.6 Avaliação da Performance

Essa é a etapa final da modelagem de um tratamento. A avaliação da performance dos modelos construídos para cada um dos tratamentos é realizada através da Área sob a Curva ROC. Ao final da construção dos modelos para todos os tratamentos possíveis, a performance do modelo é armazenada para cada um dos tratamentos.

Após a condução dos experimentos os resultados são armazenados no formato abaixo com todas as combinações de tratamentos possíveis associadas às suas respectivas performances.

152 # Tamanho da Janela Disposição da Janela Tipos de Dados Técnica de Modelagem Performance

1 2 dias Superposta RFE Regressão Logística 0.7535

2 2 dias Superposta RFE Redes Neurais 0.8163

... ... ... ... ... ...

72 16 dias Escalonada RFM Árvore de Decisão 0.5312

Tabela 6-10: Exemplo ilustrativo da tabela com todos os tratamentos e os respectivos resultados dos modelos preditivos.

Esses dados são utilizados para avaliação dos experimentos e identificação do efeito de cada fator, assim como das interações entre os fatores. A descrição dos resultados é realizada na próxima seção.

6.3.7 Resumo da Execução

A execução foi realizada para as demais bases de dados dos jogos Dino Jump e Armies and Ants de maneira similar à realizada para o jogo 7 Seas explicitado nesta seção. Uma das particularidades identificadas consistiu basicamente na construção dos atributos relativos à análise RFM. Esses dois jogos móveis, apesar de terem sido lançados sob o modelo Freemium e realizarem a venda de itens virtuais, as ações relativas à compra desses itens não são armazenadas na base de dados.

Dessa forma, a preparação dos dados para esses jogos não incluiu a construção dos atributos monetários. O total de atributos construídos nessas bases de dados é de 97 diferentemente do 7 Seas que conta com 133 atributos.

Antes Depois

Registros: 8.520.816 Registros: 54.237

Usuários: 66.292 Usuários: 54.237

Atributos: 7 Atributos: 97

153

Antes Depois

Registros: 7.735.124 Registros: 95.196

Usuários: 289.104 Usuários: 95.196

Atributos: 6 Atributos: 133

Tabela 6-12: Resultado da transformação dos dados do jogo Armies and Ants.

Além da mudança na quantidade de atributos gerados, a condução dos experimentos para essas duas bases resultou na construção de 36 classificadores, e não 72 como apresentado para a base do jogo 7 Seas. Essa alteração se deve basicamente à remoção do fator Tipos de Dados do plano experimental com a utilização exclusiva dos dados da análise RFE. O número total de tratamentos (𝑁) é calculado a partir da análise combinatória dos fatores e seus níveis.

𝑁 = 4 × 3 × 1 × 3 = 36

Outra particularidade identificada a partir da análise dos dados dos jogos foi a presença de ruídos nos dados extraídos do jogo Dino Jump. No Dino Jump a data das ações realizadas pelos usuários é registrada no momento em que a mensagem é recebida no servidor, porém nós identificamos que a mensagem enviada do jogo para o servidor pode ser armazenada para o envio posterior. Esse envio pode acontecer horas depois como pode acontecer semanas depois. Nos demais jogos avaliados (7 Seas e Armies and Ants), a data das ações é registrada no próprio cliente, mesmo que a ação seja armazenada no servidor posteriormente. Isso significa que a data real de realização da ação não é perdida. Esse ruído nos dados do Dino Jump impacta diretamente na construção dos atributos relativos à quantidade de sessões, frequência de sessões, duração das sessões e tempo de ausência.

No documento Diretrizes para construção de modelos preditivos de abandono de usuário em jogos móveis (páginas 149-153)