• Nenhum resultado encontrado

3MD-Classificacao17092010

N/A
N/A
Protected

Academic year: 2021

Share "3MD-Classificacao17092010"

Copied!
45
0
0

Texto

(1)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

3 - Classificação

Mineração de Dados

(2)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Introdução

• Classificação

– É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas

– É um problema universal que engloba muitas aplicações diferentes

– Ex:

• Detecção de mensagens de spam em e-mails baseada no cabeçalho e conteúdo da mensagem • Categorização de células (benigna ou maligna)

baseada nos resultados de varreduras MRI • Classificação de galáxias baseada nos seus

(3)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(4)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Introdução

• Os dados de entrada da tarefa de

classificação são um conjunto de registros • Cada registro (instância ou exemplo), é

caracterizado por uma dupla (x,y), onde x é o conjunto de atributos e y o atributo

especial (rótulo da classe, atributo alvo ou de categorização)

(5)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(6)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificação

• Definição

– É a tarefa de aprender uma função alvo f que mapeie cada conjunto de atributos x para um dos rótulos de classes y pré-determinados

– A função alvo é também conhecida

informalmente como modelo de classificação – Um modelo de classificação é útil para os

seguintes propósitos

• Modelagem Descritiva • Modelagem Preditiva

(7)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificação

• Modelagem Descritiva

– Um modelo de classificação pode servir como ferramenta explicativa para se distinguir entre objetos e classes diferentes

– Ex: seria útil ter um modelo descritivo que

resuma os dados mostrados anteriormente e que explique quais características definem um vertebrado como mamífero, réptil, ave ou anfíbio

(8)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificação

• Modelagem Preditiva

– Um modelo de classificação também pode ser usado para prever o rótulo da classe de registros não conhecidos

– Ex: Perceptron

• Rede neural artificial com um único neurônio que consegue fazer classificações lineares

(9)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(10)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(11)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificação

• Suponha que tenhamos recebido as

seguintes características de uma criatura conhecida com um monstro de Gila

(12)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificação

• Podemos utilizar um modelo de

classificação criado a partir do conjunto de dados mostrados anteriormente para

determinar a classe à qual a criatura pertence!

(13)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificação

• Uma técnica de classificação (ou classificadora) é uma abordagem

sistemática para construção de modelos

de classificação a partir de um conjunto de dados de entrada

(14)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Classificadores

• Exemplos

– Classificadores de Árvores de Decisão – Classificadores baseados em Regras – Redes Neurais Artificiais

– Support Vector Machines – Classificadores Bayesianos

(15)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Algoritmo de

Aprendizagem

• Cada técnica emprega um algoritmo de aprendizagem para identificar um modelo que seja mais apropriado para o

relacionamento entre o conjunto de

atributos e o rótulo da classe dos dados de entrada

(16)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Algoritmo de

Aprendizagem

• O modelo gerado pelo algoritmo de

aprendizagem deve se adaptar bem aos dados de entrada e prever corretamente os rótulos de classes de registro que ele nunca viu antes

(17)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Algoritmo de

Aprendizagem

• Portanto, um objetivo chave do algoritmo de aprendizagem é construir modelos com boa capacidade de generalização, isto é, modelos que prevejam com precisão os rótulos de classes de registros não

(18)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Registros cujos rótulos são conhecidos

Registros cujos rótulos NÃO são conhecidos

•Classificadores de Árvores de Decisão

•Classificadores baseados em Regras

•Redes Neurais Artificiais •Support Vector Machines •Classificadores Bayesianos

(19)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Particionamento da

base de dados

• Particionamentos mais usuais

– 10 fold

• Conjuntos de dados extensos

• Tendo cada classe um grande número de registros • Mais aceito

– 2:1

• Muito utilizado pelas Redes Neurais Artificiais

• Pode ser utilizado para grandes ou pequenos datasets • Está caindo em desuso

– LOO (leave one out)

(20)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Aprendizagem

• O conjunto de treinamento é usado para construir um modelo de classificação, que é subsequentemente aplicado ao conjunto de teste, que consiste de registros com

(21)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Avaliação de

Desempenho

• A avaliação do desempenho de um

modelo de classificação é baseada nas

contagens de registros de testes previstos correta e incorretamente pelo modelo

• Estas contagens são tabuladas em uma tabela conhecida como matriz de

(22)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(23)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Matriz de Confusão

• Embora uma matriz de confusão forneça as informações necessárias para

determinas o quão bem um modelo de classificação é executado

• Resumir estas informações em um único número tornaria mais conveniente afim de comparar desempenhos de modelos

(24)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Matriz de Confusão

• Isso pode ser feito usando uma métrica de desempenho como precisão

(25)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Matriz de Confusão

• De forma equivalente, o desempenho de um modelo pode ser expresso em termos de sua taxa de erro

(26)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(27)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting

• Os erros cometidos por um modelo de

classificação são geralmente divididos em dois tipos

– Erros de treinamento – Erros de generalização

(28)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting

• Erros de treinamento (também chamados de erros de re-substituição ou erros

aparentes), são o número de erros de classificação equivocada cometidos nos registros de treinamento

• Erros de generalização (também

chamados de erros de teste) são os erros esperados do modelo em registros não

(29)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting

• Um bom modelo de classificação deve

não apenas se adaptar bem aos dados de treinamento, como também deve

classificar com precisão os registros que nunca havia visto antes

• Isto é, um bom modelo deve ter baixa quantidade de erros de treinamento e baixa quantidade de erros de

(30)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting

• Overfitting de modelo

– Que possui pequeno número de erros em treinamento e alto número de erros em

generalização

(31)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting

• Tipos de Overfitting

– Overfitting devido a presença de ruído – Overfitting devido a falta de amostras

(32)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting

• Overfitting devido a presença de ruído

– Ruído é o componente aleatório de um erro de medição. Ele pode envolver a distorção de um valor ou a adição de objetos ilegítimos

– O termo ruído está, na maioria das vezes,

ligados com dados que possuam componente temporal ou espacial. Em tais casos, técnicas de processamento de imagens ou sinais

(33)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

(34)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Ruído

Redução De Ruídos

(35)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Ruído

• A eliminação de ruídos é, muitas vezes, uma tarefa difícil, e muitos trabalhos em mineração de dados foca o projeto de algoritmos robustos que produzam

resultados aceitáveis quando ruídos estiverem presentes

(36)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

(37)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

(38)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

(39)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

(40)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

100% de acerto em Treinamento! 70% de acerto em Teste!

(41)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

80% de acerto em Treinamento! 90% de acerto em Teste!

(42)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a

presença de ruído

• A primeira árvore de decisão teve

problema de overfitting com os dados de treinamento porque há um modelo (neste caso até mais simples) com taxa de erro menor no conjunto de teste

(43)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a falta

de amostras representativas

• Modelos que tomem suas decisões sobre classificação baseados em um pequeno número de registros de treinamento

(44)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a falta

de amostras representativas

(45)

Prof. Laurence Rodrigues do Amaral UFG/Jataí

Overfitting devido a falta

de amostras representativas

Teste - Humanos, elefantes e golfinhos?

100% de acerto em Treinamento!

Referências

Documentos relacionados

Uma abordagem de geração de ideias para o processo de inovação, 2012 (Engenharia e Gestão do Conhecimento) Universidade Federal de Santa Catarina8. Participação em banca

Este capítulo apresentou o desenvolvimento da estrutura sonora para a integração do feedback sonoro nas aplicações do dispositivo SHaRe e do dispositivo WESt, de forma a

Esta pesquisa teve como objetivo avaliar as características de madeira do híbrido Euca/ytpus grandis x Euca/ytpus urophylla e da celulose entre o primeiro ano até o sétimo ano

O Município de São José do Rio Preto encontra-se atualmente na fase amarela, em que eventos são permitidos após a região ficar ao menos 28 (vinte e oito) dias

Esse trabalho teve por objetivo a síntese de um catalisador com atividade fotocatalítica na região do visível, apto a utilizar a luz solar como fonte de radiação para a

Depois de algum tempo de treinamento, o modelo de Rumelhart e McClelland (1986) obteve 90% de acerto na flexão verbal de passado e foi capaz de produzir resultados não somente para

“Nenhum incrédulo pode participar de uma ordenança santa da aliança do Senhor que é a Ceia, pois quando o incrédulo faz isso, come e bebe juízo para si, segundo o apóstolo Paulo

O objetivo deste texto é trazer considerações sobre o modo como a tecnologia vem sendo disponibilizada aos professores e alunos dos anos iniciais pelas políticas