• Nenhum resultado encontrado

Descoberta de Conhecimento em Bases de Dados. Classificação

N/A
N/A
Protected

Academic year: 2021

Share "Descoberta de Conhecimento em Bases de Dados. Classificação"

Copied!
21
0
0

Texto

(1)

Universidade Técnica de Lisboa

INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO

Informática e Sistemas de Informação Aplicados em Economia

Descoberta de Conhecimento em Bases de Dados.

Classificação

(2)

Descoberta de Conhecimento em Bases de Dados. Classificação 2

Descoberta de Conhecimento em Bases de Dados.

Classificação

- Descoberta de Conhecimento em Bases de Dados - A Classificação

- Técnicas para a Classificação - Algoritmo de Parsaye

(3)

Descoberta de Conhecimento em Bases de Dados. Classificação 3

Descoberta de Conhecimento em Bases de Dados

O processo da descoberta de conhecimento em bases de dados, designado em termos de linguagem original por knowledge discovery

in databases (KDD) pode ser visto como um conjunto sequencial de

actividades: selecção de dados, preprocessamento dos dados, transformação do dados, data mining e interpretação dos resultados.

(4)

Descoberta de Conhecimento em Bases de Dados. Classificação 4

Descoberta de Conhecimento em Bases de Dados

D A T A

D A T A seleccionadosseleccionadosDados Dados

… … … … … … … … ... Dados Dados Preprocessados Preprocessados Dados Dados Transformados Transformados Padrões Padrões Conhecimento Conhecimento Interpretação Data Mining Transformação Preprocessamento Selecção

Descoberta de Conhecimento em Bases de Dados

D A T A

D A T A seleccionadosseleccionadosseleccionadosseleccionadosDados Dados Dados Dados

… … … … … … … … ... Dados Dados Preprocessados Preprocessados … … … … … … … … ... … … … … … … … … ... … … … … … … … … ... Dados Dados Preprocessados Preprocessados Dados Dados Transformados Transformados Dados Dados Transformados Transformados Padrões Padrões Padrões Padrões Conhecimento Conhecimento Interpretação Data Mining Transformação Preprocessamento Selecção Interpretação Data Mining Transformação Preprocessamento Selecção

(5)

Descoberta de Conhecimento em Bases de Dados. Classificação 5

Descoberta de Conhecimento em Bases de Dados

Alguns algoritmos de descoberta:

- Classificação: árvores de decisão e regras - Pesquisa de associações

- Perspectiva baseada em frequências: agentes e redes causais. - Pesquisa de clusters

Algumas perspectivas

- lógica tradicional - lógica difusa

(6)

Descoberta de Conhecimento em Bases de Dados. Classificação 6

A Classificação (1)

Dado um conjunto de instâncias de uma estrutura de dados complexa de atributos A1, A2,… An onde um dos atributos tem um domínio de baixa cardinalidade (correspondendo a um número não elevado de classes), a classificação associa a cada instância, nesse atributo, um dos valores do seu domínio.

(7)

Descoberta de Conhecimento em Bases de Dados. Classificação 7

A Classificação (2)

Vulgarmente a classificação é feita em dois passos:

1. num primeiro é dado um conjunto de exemplos ao sistema para este induzir as regras de classificação

2. em seguida as regras são utilizadas para classificar outros registos

(8)

Descoberta de Conhecimento em Bases de Dados. Classificação 8

Árvores de Decisão (1)

Uma árvore de decisão classifica exemplos num número finito das classes

- Nós são etiquetados com o nome do atributo que lhes corresponde - Troncos são etiquetadas com valores possíveis para este atributo - Folhas são etiquetadas com as classes diferentes

Um objecto é classificado seguindo um trajecto pela árvore, fazendo exame dos troncos, correspondendo aos valores dos atributos no objecto.

(9)

Descoberta de Conhecimento em Bases de Dados. Classificação 9

Árvores de Decisão (2)

Objectos que descrevem o Investimento Directo Estrangeiro em

Portugal

Investidor : (Foresa, Mitsui, Shi-Etsu)

País de Origem: (Espanha, P. Baixos, Japão)

Concelho: (Ilhavo, Estarreja)

Operação: (Aquisição de quotas/acções, Aumento de capital) e

(10)

Descoberta de Conhecimento em Bases de Dados. Classificação 10

Árvores de Decisão (3)

Origem Investidor Foresa Shin-Etsu Mitsui Elevado P. Baixos Japão Médio Baixo Baixo

(11)

Descoberta de Conhecimento em Bases de Dados. Classificação 11

Algoritmos

- As árvores de decisão exprimem uma forma simples de lógica

condicional.

- Um sistema de árvores de decisão simplesmente particiona uma

tabela em tabelas mais pequenas pela selecção de subconjuntos

baseado em valores para um dado atributo.

- Baseado no modo em como a tabela é particionada, obtemos um algoritmo diferente para árvore de decisão tal como o

§ Classification and Regression Trees (CART), ou o

§ Chisquare Automatic Interaction Detection (CHAID), ou o § C4.5 de Ross Quinlan

(12)

Descoberta de Conhecimento em Bases de Dados. Classificação 12

Transformação prévia dos dados

- com a criação de uma configuração específica para o atributo de baixa cardinalidade que vai servir de base à classificação;

- com a transformação de um produto cartesiano resultante da junção de duas tabelas com relacionamento 1:N numa única linha através da multiocorrência do atributo associado à tabela do lado N;

(13)

Descoberta de Conhecimento em Bases de Dados. Classificação 13

Árvores de Decisão – Um exemplo

Investimento Directo Estrangeiro em Portugal

Investidor País

Origem

Concelho Operação Montante

Foresa Espanha Ilhavo Aquisição quotas/acções > 100000 Foresa Espanha Ilhavo Aquisição quotas/acções > 100000

Mitsui P. Baixos Estarreja Aumento de Capital [50000, 100000] Mitsui Japão Estarreja Aumento de Capital < 50000 Shin-Etsu P. Baixos Estarreja Aumento de Capital < 50000 Shin-Etsu P. Baixos Estarreja Aumento de Capital < 50000

(14)

Descoberta de Conhecimento em Bases de Dados. Classificação 14

Árvores de Decisão - Método de Parsaye (1)

1) Com base em investidor construir três novas tabelas

Investidor País Origem Concelho Operação Montante

Foresa Espanha Ilhavo Aquisição quotas/acções > 100000

Foresa Espanha Ilhavo Aquisição quotas/acções > 100000

Investidor País Origem Concelho Operação Montante

Mitsui P. Baixos Estarreja Aumento de Capital [50000, 100000]

Mitsui Japão Estarreja Aumento de Capital < 50000

Investidor País Origem Concelho Operação Montante

Shin-Etsu P. Baixos Estarreja Aumento de Capital < 50000

(15)

Descoberta de Conhecimento em Bases de Dados. Classificação 15

Árvores de Decisão - Método de Parsaye (2)

2) Determinar as tabelas classificadas -aquelas em que os valores de

Montante são os mesmos: A primeira e terceira tabelas

3) Prosseguir o processo de partição. A segunda tabela vai originar duas novas tabelas:

Todas as tabelas estão classificadas

Investidor País Origem Concelho Operação Montante

Mitsui P. Baixos Estarreja Aumento de Capital [50000, 100000]

Investidor País Origem Concelho Operação Montante

(16)

Descoberta de Conhecimento em Bases de Dados. Classificação 16

Árvores de Decisão - Método de Parsaye (3)

Foresa Mitsui Japão P. Baixos > 100000 < 50000 < 50000 [50000, 100000] Origem Investidor Shin-Etsu

(17)

Descoberta de Conhecimento em Bases de Dados. Classificação 17

Limitações das Árvores de Decisão

- Em muitos casos, não existe um melhor atributo para início de selecção e

- qualquer que seja o atributo escolhido haverá sempre

(18)

Descoberta de Conhecimento em Bases de Dados. Classificação 18

Limitações das Árvores de Decisão

conhecimento perdido

Os dois factos:

1. O investidor Foresa aplica montantes elevados,

2. Aquisições de quotas/acções são aplicações de montantes elevados

nunca podem ser obtidos da tabela num ciclo de extracção de conhecimento com a árvore de decisão. Podemos obter o facto (a) ou o facto (b), não ambos, porque a árvore de decisão seleciona um atributo especifico para executar a partição em cada estádio.

(19)

Descoberta de Conhecimento em Bases de Dados. Classificação 19

Regras de produção (1)

Uma regra de produção é uma afirmação da forma:

Se Condição1 Então classe1

Cada caminho numa árvore de decisão corresponde a um termo: uma conjunção de condições envolvendo os atributos.

A árvore anterior é equivalente ao conjunto de regras seguintes:

Default Montante = Baixo

Se Investidor = Foresa Então Montante = Elevado Se Investidor = Mitsui e Origem = P.Baixos

(20)

Descoberta de Conhecimento em Bases de Dados. Classificação 20

Regras de Produção (2)

Neste caso, fazem-se comparações utilizando os valores de campos de uma tabela de dados

Usa-se uma Representação Atributo-Valor: 1 Investidor é o atributo e Foresa é o valor.

1 Origem = Espanha, onde Origem é o atributo e Espanha o valor.

(21)

Descoberta de Conhecimento em Bases de Dados. Classificação 21

Regras de Produção (3)

Vantagens relativamente às árvores de decisão:

- a possibilidade de definição de uma classe por defeito simplifica a especificação.

- podem estar para além das representações atributo-valor

o por exemplo, ter instruções que comparem os valores de dois campos sem expressamente referir quaisquer valores o que não pode ser estabelecido por árvores de decisão

Referências

Documentos relacionados