Professor: Rosalvo Ferreira de Oliveira Neto
INTELIGÊNCIA COMPUTACIONAL
Estudos Comparativos Recentes
- Behavior Scoring
Roteiro
Objetivo Critérios de Avaliação Exemplo 1 Exemplo 2 Metodologias de AvaliaçãoObjetivo
Apresentar os estudos mais recentes na investigação dos melhores modelos para construção de sistemas de Behavior Scoring.
Critérios de Avaliação
- Objetivo - Técnicas utilizadas - Metodologia de avaliação - Base de dados - Pública (y/n) - Número de registros - Número de variáveis- Descrição das variáveis (y/n)
- Métrica de Avaliação de Desempenho utilizada - Resultados
Exemplo 1
Data Mining in Building Behavioral Scoring Models
O objetivo deste trabalho foi realizar um estudo investigativo para averiguar entre as três técnicas de Data Mining
aplicadas em projetos de Behavior Scoring qual produz maior poder discriminatório ao modelo final. As técnicas comparadas foram:
• Analise Discriminante Linear; • Rede Neural Backpropagation; • Support Vector Machine;
Exemplo 1 - Técnicas
Analise Discriminante Linear
A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos. Segundo KHATTREE & NAIK (2000) é uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes.
Exemplo 1 - Técnicas
Rede Neural
Redes Neurais Artificiais (RNA) são modelos de computação com propriedades particulares
• Capacidade de se adaptar ou aprender • Generalizar
Exemplo 1 - Técnicas
Support Vector Machine (SVM)
SVM é um novo método estatístico não-paramétrico. A versão original do SVM foi projetada para solucionar problemas de classificação binária, e vem ganhando popularidade devido as suas características. Dentre suas características podemos destacar:
• Boa capacidade de generalização • Robustez em grandes dimensões • Teoria bem definida
Exemplo 1 – Avaliação Geral
Critério Informação
Metodologia de avaliação N-fold cross-validation scheme
Base de dados Empresa de cartão de crédito de Taiwan
Pública (y/n) N
Número de registros (y/n) 107.690 Número de variáveis 41
Descrição das variáveis (y/n) N
Exemplo 1 - Conclusão
Os resultados experimentais indicam que o modelo de Redes Neurais fornece melhor desempenho ao
Exemplo 2
Neural Networks vs Logistic Regression: a Comparative Study on a Large Data Set
O objetivo deste trabalho foi realizar um estudo investigativo para averiguar entre Redes Neurais e Regressão Logística aplicadas aos projetos de Behavior Scoring qual produz maior poder discriminatório ao modelo final. As técnicas comparadas foram:
- Redes Neurais
Exemplo 2 – Avaliação Geral
Critério Aplicada
Metodologia de avaliação N-fold cross-validation scheme
Base de dados Empresa de cartão de crédito do Brasil
Pública (y/n) N
Número de registros (y/n) 80.000 Número de variáveis 41
Descrição das variáveis (y/n) N
Exemplo 2 - Conclusão
Os resultados experimentais indicam que o modelo de Redes Neurais fornece melhor desempenho ao Behavior Scoring. Esta pesquisa utilizou várias métricas de desempenho para comparar as técnicas e os resultados.
Avaliação de Classificadores
• Existem poucos estudos analíticos sobre o
comportamento de algoritmos de aprendizagem • A análise de classificadores é fundamentalmente
experimental
• Dimensões de análise
Taxa de erro
Complexidade dos modelos
Avaliação de Algoritmos de Classificação
• Dois problemas distintos:
• Dados um algoritmo e um conjunto de dados:
• Como estimar a taxa de erro do algoritmo nesse problema?
• Dados dois algoritmos e um conjunto de dados:
• A capacidade de generalização dos algoritmos é igual?
Avaliação
• Como medir o desempenho do modelo
aprendido?
• Erro no conjunto de treinamento não é um bom indicador em relação ao que vai ser observado no futuro
• Solução simples quando os dados são abundantes
Treinamento e teste
• Medida natural de desempenho para
problemas de classificação: taxa de erro
• Sucesso: a classe da instancia é prevista corretamente
• Erro: classe da instancia é prevista incorretamente
• Taxa de erro: proporção dos erros em relação ao
conjunto de exemplos
• Erro de re-substituição: erro calculado a partir
do conjunto de treinamento
Treinamento e teste
• Conjunto de Teste
• Conjunto de exemplos independentes que não tiveram
nenhum papel na construção do classificador
• Suposição
• os conjuntos de treinamento e teste são amostras
Ajuste de parâmetros
• É importante que os dados de teste não sejam
usados de nenhuma maneira para construir o
classificador
• Alguns algoritmos de aprendizagem operam
em dois estágios
• Estágio 1: construção da estrutura básica
• Estágio 2: otimização do ajuste dos parâmetros
• Procedimento correto: usar 3 conjuntos: treinamento, validação e teste
Principais métodos de avaliação de classificadores
• Holdout
• Validação cruzada • Leave-one-out
Holdout
• O método holdout reserva uma certa quantidade para teste e o restante para a aprendizagem
• Usalmente, 1/3 para teste e 2/3 para treinamento
• Problema: a amostra pode não ser representativa
• Exemplo: uma classe pode estar ausente no conjunto de
teste
• Amostragem estratificada: as classes são representadas com aproximadamente a mesma proporção tanto no teste como no treinamento
Validação Cruzada
• Os dados são divididos em k conjuntos de mesmo cardinal
• cada subconjunto é usado como teste e o restante como treino
• Isso é chamado de validação cruzada k-fold
• Os subconjuntos podem ser estratificados antes de realizar a validação cruzada
• A taxa de erro global é a média das taxas de erro calculadas em cada etapa
Leave-one-out
• É uma forma particular de validação cruzada • O número de folds é o número de exemplos • O classificador é construído n vezes
• Usa os dados completamente no treino • Não envolve sub-amostras aleatórias • Computacionalmente custoso
Bootstrap
• Validação cruzada usa amostragem sem repetição
• Bootstrap é um método de estimação que usa amostragem com reposição para formar o conjunto de treinamento
• Retira-se uma amostra aleatória de tamanho n de um conjunto de n exemplos com reposição
• Essa amostra é usada para o treinamento
• os exemplos dos dados originais que não estão no conjunto de treino são usados como teste
• É a melhor maneira quando o conjunto de dados é pequeno