Prof. Laurence Rodrigues do Amaral UFG/Jataí
3 - Classificação
Mineração de Dados
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Introdução
• Classificação
– É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas
– É um problema universal que engloba muitas aplicações diferentes
– Ex:
• Detecção de mensagens de spam em e-mails baseada no cabeçalho e conteúdo da mensagem • Categorização de células (benigna ou maligna)
baseada nos resultados de varreduras MRI • Classificação de galáxias baseada nos seus
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Introdução
• Os dados de entrada da tarefa de
classificação são um conjunto de registros • Cada registro (instância ou exemplo), é
caracterizado por uma dupla (x,y), onde x é o conjunto de atributos e y o atributo
especial (rótulo da classe, atributo alvo ou de categorização)
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificação
• Definição
– É a tarefa de aprender uma função alvo f que mapeie cada conjunto de atributos x para um dos rótulos de classes y pré-determinados
– A função alvo é também conhecida
informalmente como modelo de classificação – Um modelo de classificação é útil para os
seguintes propósitos
• Modelagem Descritiva • Modelagem Preditiva
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificação
• Modelagem Descritiva
– Um modelo de classificação pode servir como ferramenta explicativa para se distinguir entre objetos e classes diferentes
– Ex: seria útil ter um modelo descritivo que
resuma os dados mostrados anteriormente e que explique quais características definem um vertebrado como mamífero, réptil, ave ou anfíbio
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificação
• Modelagem Preditiva
– Um modelo de classificação também pode ser usado para prever o rótulo da classe de registros não conhecidos
– Ex: Perceptron
• Rede neural artificial com um único neurônio que consegue fazer classificações lineares
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificação
• Suponha que tenhamos recebido as
seguintes características de uma criatura conhecida com um monstro de Gila
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificação
• Podemos utilizar um modelo de
classificação criado a partir do conjunto de dados mostrados anteriormente para
determinar a classe à qual a criatura pertence!
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificação
• Uma técnica de classificação (ou classificadora) é uma abordagem
sistemática para construção de modelos
de classificação a partir de um conjunto de dados de entrada
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Classificadores
• Exemplos
– Classificadores de Árvores de Decisão – Classificadores baseados em Regras – Redes Neurais Artificiais
– Support Vector Machines – Classificadores Bayesianos
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Algoritmo de
Aprendizagem
• Cada técnica emprega um algoritmo de aprendizagem para identificar um modelo que seja mais apropriado para o
relacionamento entre o conjunto de
atributos e o rótulo da classe dos dados de entrada
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Algoritmo de
Aprendizagem
• O modelo gerado pelo algoritmo de
aprendizagem deve se adaptar bem aos dados de entrada e prever corretamente os rótulos de classes de registro que ele nunca viu antes
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Algoritmo de
Aprendizagem
• Portanto, um objetivo chave do algoritmo de aprendizagem é construir modelos com boa capacidade de generalização, isto é, modelos que prevejam com precisão os rótulos de classes de registros não
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Registros cujos rótulos são conhecidos
Registros cujos rótulos NÃO são conhecidos
•Classificadores de Árvores de Decisão
•Classificadores baseados em Regras
•Redes Neurais Artificiais •Support Vector Machines •Classificadores Bayesianos
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Particionamento da
base de dados
• Particionamentos mais usuais
– 10 fold
• Conjuntos de dados extensos
• Tendo cada classe um grande número de registros • Mais aceito
– 2:1
• Muito utilizado pelas Redes Neurais Artificiais
• Pode ser utilizado para grandes ou pequenos datasets • Está caindo em desuso
– LOO (leave one out)
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Aprendizagem
• O conjunto de treinamento é usado para construir um modelo de classificação, que é subsequentemente aplicado ao conjunto de teste, que consiste de registros com
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Avaliação de
Desempenho
• A avaliação do desempenho de um
modelo de classificação é baseada nas
contagens de registros de testes previstos correta e incorretamente pelo modelo
• Estas contagens são tabuladas em uma tabela conhecida como matriz de
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Matriz de Confusão
• Embora uma matriz de confusão forneça as informações necessárias para
determinas o quão bem um modelo de classificação é executado
• Resumir estas informações em um único número tornaria mais conveniente afim de comparar desempenhos de modelos
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Matriz de Confusão
• Isso pode ser feito usando uma métrica de desempenho como precisão
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Matriz de Confusão
• De forma equivalente, o desempenho de um modelo pode ser expresso em termos de sua taxa de erro
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting
• Os erros cometidos por um modelo de
classificação são geralmente divididos em dois tipos
– Erros de treinamento – Erros de generalização
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting
• Erros de treinamento (também chamados de erros de re-substituição ou erros
aparentes), são o número de erros de classificação equivocada cometidos nos registros de treinamento
• Erros de generalização (também
chamados de erros de teste) são os erros esperados do modelo em registros não
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting
• Um bom modelo de classificação deve
não apenas se adaptar bem aos dados de treinamento, como também deve
classificar com precisão os registros que nunca havia visto antes
• Isto é, um bom modelo deve ter baixa quantidade de erros de treinamento e baixa quantidade de erros de
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting
• Overfitting de modelo
– Que possui pequeno número de erros em treinamento e alto número de erros em
generalização
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting
• Tipos de Overfitting
– Overfitting devido a presença de ruído – Overfitting devido a falta de amostras
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting
• Overfitting devido a presença de ruído
– Ruído é o componente aleatório de um erro de medição. Ele pode envolver a distorção de um valor ou a adição de objetos ilegítimos
– O termo ruído está, na maioria das vezes,
ligados com dados que possuam componente temporal ou espacial. Em tais casos, técnicas de processamento de imagens ou sinais
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Ruído
Redução De RuídosProf. Laurence Rodrigues do Amaral UFG/Jataí
Ruído
• A eliminação de ruídos é, muitas vezes, uma tarefa difícil, e muitos trabalhos em mineração de dados foca o projeto de algoritmos robustos que produzam
resultados aceitáveis quando ruídos estiverem presentes
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
100% de acerto em Treinamento! 70% de acerto em Teste!Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
80% de acerto em Treinamento! 90% de acerto em Teste!Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a
presença de ruído
• A primeira árvore de decisão teve
problema de overfitting com os dados de treinamento porque há um modelo (neste caso até mais simples) com taxa de erro menor no conjunto de teste
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a falta
de amostras representativas
• Modelos que tomem suas decisões sobre classificação baseados em um pequeno número de registros de treinamento
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a falta
de amostras representativas
Prof. Laurence Rodrigues do Amaral UFG/Jataí
Overfitting devido a falta
de amostras representativas
Teste - Humanos, elefantes e golfinhos?
100% de acerto em Treinamento!