Universidade Técnica de Lisboa
INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO
Informática e Sistemas de Informação Aplicados em Economia
Descoberta de Conhecimento em Bases de Dados.
Classificação
Descoberta de Conhecimento em Bases de Dados. Classificação 2
Descoberta de Conhecimento em Bases de Dados.
Classificação
- Descoberta de Conhecimento em Bases de Dados - A Classificação
- Técnicas para a Classificação - Algoritmo de Parsaye
Descoberta de Conhecimento em Bases de Dados. Classificação 3
Descoberta de Conhecimento em Bases de Dados
O processo da descoberta de conhecimento em bases de dados, designado em termos de linguagem original por knowledge discoveryin databases (KDD) pode ser visto como um conjunto sequencial de
actividades: selecção de dados, preprocessamento dos dados, transformação do dados, data mining e interpretação dos resultados.
Descoberta de Conhecimento em Bases de Dados. Classificação 4
Descoberta de Conhecimento em Bases de Dados
D A T A
D A T A seleccionadosseleccionadosDados Dados
… … … … … … … … ... Dados Dados Preprocessados Preprocessados Dados Dados Transformados Transformados Padrões Padrões Conhecimento Conhecimento Interpretação Data Mining Transformação Preprocessamento Selecção
Descoberta de Conhecimento em Bases de Dados
D A T A
D A T A seleccionadosseleccionadosseleccionadosseleccionadosDados Dados Dados Dados
… … … … … … … … ... Dados Dados Preprocessados Preprocessados … … … … … … … … ... … … … … … … … … ... … … … … … … … … ... Dados Dados Preprocessados Preprocessados Dados Dados Transformados Transformados Dados Dados Transformados Transformados Padrões Padrões Padrões Padrões Conhecimento Conhecimento Interpretação Data Mining Transformação Preprocessamento Selecção Interpretação Data Mining Transformação Preprocessamento Selecção
Descoberta de Conhecimento em Bases de Dados. Classificação 5
Descoberta de Conhecimento em Bases de Dados
Alguns algoritmos de descoberta:
- Classificação: árvores de decisão e regras - Pesquisa de associações
- Perspectiva baseada em frequências: agentes e redes causais. - Pesquisa de clusters
Algumas perspectivas
- lógica tradicional - lógica difusa
Descoberta de Conhecimento em Bases de Dados. Classificação 6
A Classificação (1)
Dado um conjunto de instâncias de uma estrutura de dados complexa de atributos A1, A2,… An onde um dos atributos tem um domínio de baixa cardinalidade (correspondendo a um número não elevado de classes), a classificação associa a cada instância, nesse atributo, um dos valores do seu domínio.
Descoberta de Conhecimento em Bases de Dados. Classificação 7
A Classificação (2)
Vulgarmente a classificação é feita em dois passos:
1. num primeiro é dado um conjunto de exemplos ao sistema para este induzir as regras de classificação
2. em seguida as regras são utilizadas para classificar outros registos
Descoberta de Conhecimento em Bases de Dados. Classificação 8
Árvores de Decisão (1)
Uma árvore de decisão classifica exemplos num número finito das classes
- Nós são etiquetados com o nome do atributo que lhes corresponde - Troncos são etiquetadas com valores possíveis para este atributo - Folhas são etiquetadas com as classes diferentes
Um objecto é classificado seguindo um trajecto pela árvore, fazendo exame dos troncos, correspondendo aos valores dos atributos no objecto.
Descoberta de Conhecimento em Bases de Dados. Classificação 9
Árvores de Decisão (2)
Objectos que descrevem o Investimento Directo Estrangeiro em
Portugal
Investidor : (Foresa, Mitsui, Shi-Etsu)
País de Origem: (Espanha, P. Baixos, Japão)
Concelho: (Ilhavo, Estarreja)
Operação: (Aquisição de quotas/acções, Aumento de capital) e
Descoberta de Conhecimento em Bases de Dados. Classificação 10
Árvores de Decisão (3)
Origem Investidor Foresa Shin-Etsu Mitsui Elevado P. Baixos Japão Médio Baixo BaixoDescoberta de Conhecimento em Bases de Dados. Classificação 11
Algoritmos
- As árvores de decisão exprimem uma forma simples de lógica
condicional.
- Um sistema de árvores de decisão simplesmente particiona uma
tabela em tabelas mais pequenas pela selecção de subconjuntos
baseado em valores para um dado atributo.
- Baseado no modo em como a tabela é particionada, obtemos um algoritmo diferente para árvore de decisão tal como o
§ Classification and Regression Trees (CART), ou o
§ Chisquare Automatic Interaction Detection (CHAID), ou o § C4.5 de Ross Quinlan
Descoberta de Conhecimento em Bases de Dados. Classificação 12
Transformação prévia dos dados
- com a criação de uma configuração específica para o atributo de baixa cardinalidade que vai servir de base à classificação;
- com a transformação de um produto cartesiano resultante da junção de duas tabelas com relacionamento 1:N numa única linha através da multiocorrência do atributo associado à tabela do lado N;
Descoberta de Conhecimento em Bases de Dados. Classificação 13
Árvores de Decisão – Um exemplo
Investimento Directo Estrangeiro em Portugal
Investidor País
Origem
Concelho Operação Montante
Foresa Espanha Ilhavo Aquisição quotas/acções > 100000 Foresa Espanha Ilhavo Aquisição quotas/acções > 100000
Mitsui P. Baixos Estarreja Aumento de Capital [50000, 100000] Mitsui Japão Estarreja Aumento de Capital < 50000 Shin-Etsu P. Baixos Estarreja Aumento de Capital < 50000 Shin-Etsu P. Baixos Estarreja Aumento de Capital < 50000
Descoberta de Conhecimento em Bases de Dados. Classificação 14
Árvores de Decisão - Método de Parsaye (1)
1) Com base em investidor construir três novas tabelas
Investidor País Origem Concelho Operação Montante
Foresa Espanha Ilhavo Aquisição quotas/acções > 100000
Foresa Espanha Ilhavo Aquisição quotas/acções > 100000
Investidor País Origem Concelho Operação Montante
Mitsui P. Baixos Estarreja Aumento de Capital [50000, 100000]
Mitsui Japão Estarreja Aumento de Capital < 50000
Investidor País Origem Concelho Operação Montante
Shin-Etsu P. Baixos Estarreja Aumento de Capital < 50000
Descoberta de Conhecimento em Bases de Dados. Classificação 15
Árvores de Decisão - Método de Parsaye (2)
2) Determinar as tabelas classificadas -aquelas em que os valores de
Montante são os mesmos: A primeira e terceira tabelas
3) Prosseguir o processo de partição. A segunda tabela vai originar duas novas tabelas:
Todas as tabelas estão classificadas
Investidor País Origem Concelho Operação Montante
Mitsui P. Baixos Estarreja Aumento de Capital [50000, 100000]
Investidor País Origem Concelho Operação Montante
Descoberta de Conhecimento em Bases de Dados. Classificação 16
Árvores de Decisão - Método de Parsaye (3)
Foresa Mitsui Japão P. Baixos > 100000 < 50000 < 50000 [50000, 100000] Origem Investidor Shin-Etsu
Descoberta de Conhecimento em Bases de Dados. Classificação 17
Limitações das Árvores de Decisão
- Em muitos casos, não existe um melhor atributo para início de selecção e
- qualquer que seja o atributo escolhido haverá sempre
Descoberta de Conhecimento em Bases de Dados. Classificação 18
Limitações das Árvores de Decisão
conhecimento perdido
Os dois factos:
1. O investidor Foresa aplica montantes elevados,
2. Aquisições de quotas/acções são aplicações de montantes elevados
nunca podem ser obtidos da tabela num ciclo de extracção de conhecimento com a árvore de decisão. Podemos obter o facto (a) ou o facto (b), não ambos, porque a árvore de decisão seleciona um atributo especifico para executar a partição em cada estádio.
Descoberta de Conhecimento em Bases de Dados. Classificação 19
Regras de produção (1)
Uma regra de produção é uma afirmação da forma:
Se Condição1 Então classe1
Cada caminho numa árvore de decisão corresponde a um termo: uma conjunção de condições envolvendo os atributos.
A árvore anterior é equivalente ao conjunto de regras seguintes:
Default Montante = Baixo
Se Investidor = Foresa Então Montante = Elevado Se Investidor = Mitsui e Origem = P.Baixos
Descoberta de Conhecimento em Bases de Dados. Classificação 20
Regras de Produção (2)
Neste caso, fazem-se comparações utilizando os valores de campos de uma tabela de dados
Usa-se uma Representação Atributo-Valor: 1 Investidor é o atributo e Foresa é o valor.
1 Origem = Espanha, onde Origem é o atributo e Espanha o valor.
Descoberta de Conhecimento em Bases de Dados. Classificação 21
Regras de Produção (3)
Vantagens relativamente às árvores de decisão:
- a possibilidade de definição de uma classe por defeito simplifica a especificação.
- podem estar para além das representações atributo-valor
o por exemplo, ter instruções que comparem os valores de dois campos sem expressamente referir quaisquer valores o que não pode ser estabelecido por árvores de decisão