• Nenhum resultado encontrado

O objetivo desta seção é analisar os resultados obtidos neste estudo na construção de um modelo de predição sobre a base de dados e concluir sobre as condições que geram um bom modelo. A análise foi realizada comparando os resultados obtidos com o primeiro modelo um SVM de Margens Rígidas sem validação de dados, com o segundo e final que consiste em um SVM de Margens Suaves e com validação de dados.

Além disso foi comparado a consistência dos resultados obtidos quando um SVM sob mesma configuração se comporta exposto a diferentes amostras de dados e qual a sensibilidade dos resultados quando a está configuração, aqui analisada sob a perspectiva do tamanho da amostra utilizada pra construir o modelo e o valor atribuído ao parâmetro C na função SVC.

4.1 RESULTADOS SVM DE MARGENS RÍGIDAS SEM VALIDAÇÃO

De maneira geral, um bom modelo é aquele capaz de realizar predições com uma alta taxa de acerto geral e consequentemente em todas as classes a serem previstas. Considerando este pressuposto, o primeiro modelo utilizado neste trabalho apresentou uma acurácia de 83%. A Curva ROC (relação entre a taxa de falsos positivos e verdadeiros positivos) se mostra também com um valor de 80%, superior ao de uma predição decidida ao acaso, ou seja, com 50% de chance de acerto.

Figura 7 - Gráfico da curva ROC do modelo com Margens Rígidas sem validação. Fonte: Elaboração própria

Quanto a performance em relação as classes, o modelo também se mostra com resultados consistentes, pois todas as medidas de desempenho para ambas as classes apresentam valores superiores a 70%, o que novamente implica em uma predição superior ao acaso. Dos exemplos vistos o modelo mostrou maior capacidade em acertar corretamente a classe Is promoted ? = 1 o que é visto nos resultados da Precisão. Por outro lado, a classe Is promoted ? = 0 é superior no Recall, justamente por considerar mais casos atribuidos à outra classe. O ajuste entre essas duas medidas se da pela média harmônica o F1-Score com valor superior a 80%.

Precisão Recall F1-Score Casos previstos

Is promoted ? = 0 72% 91% 80% 663

Is promoted ? = 1 93% 78% 85% 1069

Tabela 4 – Report do resultado da classificação do primeiro modelo. Fonte: Elaboração própria

Caso 0 Caso 1

Predição 0 605 58

Predição 1 239 830

Tabela 5 – Matriz de Confusão do primeiro modelo. Fonte: Elaboração própria

Pode-se concluir que é um modelo eficiente com boa capacidade preditiva, mas além disso é preciso avaliar o quão bem o modelo se comporta sobre outras condições e quando aplicado sobre um conjunto de dados distintos dos quais treinou e testou.

4.2 RESULTADOS SVM DE MARGENS SUAVES COM VALIDAÇÃO

Após avaliar os resultados do modelo de predição com margens rígidas, a próxima etapa foi avaliar como o modelo se comportaria sendo um SVM de Margens Suaves e com validação dos resultados após testar em diferentes amostras de conjunto de exemplos de teste e treinamento.

Como configuração padrão, nesta etapa do modelo a suavização das margens foi atribuída por meio do parametro C com valor 0.5 na função SVC e a validação de testes foi feita com os resultados obtidos pela função SVC após utilizar 100 amostras distintas

com tamanho 250 de exemplos. Como podemos observar na tabela 4.3 este modelo apresentou acurácia média de 81%, e conforme a tabela 4.4 todas as medidas do report de resultado apresentaram valores significativos.

Quando comparada à versão com margens rígidas, é esperada a perda de acurácidade uma vez que agora o modelo passa a penalizar as predições incorretas. O fato de que as duas versões do modelo possuem uma quantidade similar de exemplos estudados, e a quantidade de exemplos is_promoted ?= 0 classificados erradamente, como podemos ver em ambas as matrizes de confusão, tabelas 4.2 e 4.5, corroboram que a penalização destes erros de classificação diminuem a acurácia do modelo final. Aliado a mudança no SVM, a acurácia média final é obtida após o aprendizado em diferentes amostras e testado em amostras antes não vistas pelo modelo o que também contribuí para diminuição.

Mesmo com uma pequena perda de desempenho após as mudanças realizadas da primeira para a segunda versão do modelo, este último se mantém com resultados satisfatórios. É interessante então observar o quando esse modelo já eficiente, é sensível a mudanças em sua configuração como o tamanho da amostra utilizada para o treinamento dos modelos e o valor do parâmetro C.

Acurácia Média Amostra/ Parametro C 0.1 0.5 0.9 200 77% 81% 81% 250 78% 81% 81% 300 79% 81% 81%

Tabela 6 - Tabela comparativa com acurácia média de 100 modelos variando o tamanho da amostra e o valor do parâmetro C.

Fonte: Elaboração própria

Ao avaliarmos a acurácia media do modelo podemos perceber, que esta medida se comporta de maneira muito consistente sem nenhuma variação quando aumentamos o valor do parâmetro C ou o tamanho da amostra. A medida se mostra mais sensível quanto ao tamanho da amostra no caso em que o parâmetro C tem um valor muito pequeno. Neste caso com pouca penalização de casos errados a relevância do tamanho da amostra se torna maior, pois o SVM tem mais exemplos para o seu aprendizado. As outras medidas de

desempenho apresentam um comportamento similar a acurácia, como podemos ver no comparativo da tabela 4.4.

Precisão Recall F1-Score Casos Previstos

Amostra/ Parametro C 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 0.1 0.5 0.9 Is_promoted ? = 0 200 68% 70% 70% 78% 85% 84% 73% 77% 77% 700 663 669 250 69% 70% 70% 79% 85% 84% 74% 77% 77% 693 659 667 300 69% 70% 70% 78% 85% 85% 82% 77% 77% 689 662 665 Is_promoted ? = 1 200 85% 90% 90% 77% 79% 79% 81% 84% 84% 1100 1137 1131 250 86% 90% 90% 77% 79% 79% 81% 84% 84% 1107 1141 1133 300 86% 90% 90% 78% 79% 79% 82% 84% 84% 1111 1138 1135

Tabela 7 - Comparativa do Report dos resultado da classificação gerada após os 100 modelos em cada combinação do Parametro C e tamanho da amostra.

Fonte: Elaboração própria

0.1 0.5 0.9

Caso 0 Caso 1 Caso 0 Caso 1 Caso 0 Caso 1

Amostra: 200

Predição 0 547 153 Predição 0 561 102 Predição 0 564 105 Predição 1 253 847 Predição 1 239 898 Predição 1 236 895

Caso 0 Caso 1 Caso 0 Caso 1 Caso 0 Caso 1

Amostra: 250

Predição 0 594 144 Predição 0 562 97 Predição 0 563 104 Predição 1 251 856 Predição 1 238 903 Predição 1 237 896

Caso 0 Caso 1 Caso 0 Caso 1 Caso 0 Caso 1

Amostra: 300

Predição 0 552 137 Predição 0 562 100 Predição 0 563 102 Predição 1 248 863 Predição 1 238 900 Predição 1 237 898

Tabela 8 - Compatativo das Matrizes de Confusão gerada no após os 100 modelos em cada combinação

do Parametro C e tamanho da amostra.

Documentos relacionados