• Nenhum resultado encontrado

ACADÊMICO: GEANDRO LUÍS COMPOLT ORIENTADOR: OSCAR DALFOVO

N/A
N/A
Protected

Academic year: 2021

Share "ACADÊMICO: GEANDRO LUÍS COMPOLT ORIENTADOR: OSCAR DALFOVO"

Copied!
19
0
0

Texto

(1)

Sistema de Informação Executiva

Baseado em Data Mining Utilizando a

Técnica de Árvores de Decisão

ACADÊMICO: GEANDRO LUÍS COMPOLT

(2)

Roteiro

• Introdução;

• Sistemas de Informação;

• Data Mining;

• Desenvolvimento do protótipo e do SIE;

• Conclusões;

(3)

Introdução

• Motivação

– possibilitar as empresas aproveitar de forma mais eficaz as

informações que estão armazenadas em seus arquivos;

– possibilitar aos executivos novas formas de visualização e

compreensão das informações inerentes ao seu negócio.

• Objetivo

Auxiliar o processo de tomada de decisões de uma empresa, através de

um Sistema de Informação Executiva utilizando técnicas de Data

Mining, mais especificamente para efetuar classificações e

segmentações.

(4)

Sistemas de Informação

Sistema especializado que pode ser definido por um

conjunto de elementos ou componentes inter-relacionados

que coletam (entrada), manipulam e armazenam (processo)

disseminam os dados e informações (saída) e fornecem um

mecanismo que permitem realizar ajustes ou modificações no

nas atividades de entrada ou processamento (feed-back).

(5)

Tecnologia da Informação

Pessoas

Informação

Técnicas

Objetivos

(6)

Data Mining

• Conceito

É a exploração e análise, por meios automáticos ou

semi-automáticos, de uma grande quantidade de dados para descobrir

padrões e regras significativas [BER97].

(7)

Data Mining

(continuação)

• KDD (Prospecção de conhecimento em bases de dados)

Processo que envolve a automação da identificação e do

reconhecimento de padrões em um banco de dados.

(8)

• Funções

– classificação;

– estimativa;

– agrupamento por afinidade;

– previsão;

– segmentação.

(9)

Árvores de Decisão

O objetivo desta técnica é reconhecer de forma automática a

representação de formas simples de lógica condicional buscando a

representação de uma série de questões que estão escondidas sobre a

base da dados formando assim uma estrutura em árvore.

Em uma árvore de decisão existem dois tipo de atributos; o decisivo,

que contém o resultado ou alvo ao qual se quer atingir e os não

decisivos que contém os valores que conduzem a uma tomada de

decisão [QUI93].

(10)

Entendimento da técnica

NOME

NOME FAT FAT VOL D.VCER D.CIDA METAS LIMCRE CONJ SPC ADVOL D.VCER D.CIDA METAS LIMCRE CONJ SPC AD

Alberto Reis 100000-500000 MEDIO NÃO NÃO NÃO ALTO SIM SIM SIM

Caio de Abreu 0-10000 BAIXO NÃO NÃO NÃO MEDIO NAO NAO SIM

Castelo Branco 100000-500000 BAIXO NÃO NÃO NÃO ALTO SIM NÃO SIM

Claudio Tafarel ACIMA 500000 BAIXO SIM NÃO SIM BAIXO SIM SIM NAO

Jardel de Souza 0-100000 MEDIO NÃO SIM NÃO ALTO SIM SIM NAO

Jose da Silva 0-100000 ALTO NÃO NÃO NÃO ALTO NAO SIM NAO

Pedro de Assis ACIMA 500000 MEDIO SIM SIM SIM BAIXO SIM SIM NAO

ENTROPIA(S) := ∑ -p(I) * log

2

p(I)

ENTROPIA(S) := (-3/7 * log

2

3/7) + (-4/7 * log

2

4/7)

ENTROPIA(S) := (-3/7 * -1.222) + (-4/7 * -0.807)

ENTROPIA(S) := 0.985

(11)

Gain (FAT,A) = 0.985 - ((2/7) * 0 +

(3/7) * 0.918 +

(2/7) * 0)

Gain (FAT,A) = 0.591

Gain (S,A) = Entropia(S) -

((|Sv|) / |S|) * Entropia(Sv))

Entendimento da técnica (continuação)

NOME

NOME FAT FAT VOL D.VCER D.CIDA METAS LIMCRE CONJ SPC ADVOL D.VCER D.CIDA METAS LIMCRE CONJ SPC AD

Alberto Reis 100000-500000 MEDIO NÃO NÃO NÃO ALTO SIM SIM SIM

Caio de Abreu 0-10000 BAIXO NÃO NÃO NÃO MEDIO NAO NAO SIM

Castelo Branco 100000-500000 BAIXO NÃO NÃO NÃO ALTO SIM NÃO SIM

Claudio Tafarel ACIMA 500000 BAIXO SIM NÃO SIM BAIXO SIM SIM NAO

Jardel de Souza 0-10000 MEDIO NÃO SIM NÃO ALTO SIM SIM NAO

Jose da Silva 0-10000 ALTO NÃO NÃO NÃO ALTO NAO SIM NAO

(12)

NOME

NOME FAT FAT VOL D.VCER D.CIDA METAS LIMCRE CONJ SPC ADVOL D.VCER D.CIDA METAS LIMCRE CONJ SPC AD

Alberto Reis 100000-500000 MEDIO NÃO NÃO NÃO ALTO SIM SIM SIM

Caio de Abreu 0-10000 BAIXO NÃO NÃO NÃO MEDIO NAO NAO SIM

Castelo Branco 100000-500000 BAIXO NÃO NÃO NÃO ALTO SIM NÃO SIM

Claudio Tafarel ACIMA 500000 BAIXO SIM NÃO SIM BAIXO SIM SIM NAO

Jardel de Souza 0-10000 MEDIO NÃO SIM NÃO ALTO SIM SIM NAO

Jose da Silva 0-10000 ALTO NÃO NÃO NÃO ALTO NAO SIM NAO

Pedro de Assis ACIMA 500000 MEDIO SIM SIM SIM BAIXO SIM SIM NAO

Gain (FAT,A) = 0.591

Gain (VOL,A) = 0.198

Gain (D.VCER,A) = 0.291

Gain (D.CIDA,A) = 0.291

Gain (SPC,A) = 0.469

Gain (CONJ,A) = 0.005

Gain (LIMCRE,A) = 0.413

Gain (METAS,A) = 0.291

Atributo FAT possui maior valor de Gain,

logo será o atributo inicial ou raiz da árvore.

(13)

Processo de formação da árvore

0-100000

100000-500000 ACIMA DE 500000

FAT

SIM

NAO

Alberto Reis 100000-500000 MEDIO NÃO NÃO NÃO ALTO SIM SIM SIM

Caio de Abreu 0-100000 BAIXO NÃO NÃO NÃO MEDIO NAO NAO SIM

Castelo Branco 100000-500000 BAIXO NÃO NÃO NÃO ALTO SIM NÃO SIM

Claudio Tafarel ACIMA 500000 BAIXO SIM NÃO SIM BAIXO SIM SIM NAO

Jardel de Souza 0-100000 MEDIO NÃO SIM NÃO ALTO SIM SIM NAO

Jose da Silva 0-100000 ALTO NÃO NÃO NÃO ALTO NAO SIM NAO

Pedro de Assis ACIMA 500000 MEDIO SIM SIM SIM BAIXO SIM SIM NAO

NOME

(14)

Processo de formação da árvore (cont.)

VOL

0-100000

100000-500000 ACIMA DE 500000

FAT

SIM

NAO

ALTO

BAIXO

MEDIO

SIM

NAO

NAO

Caio de Abreu 0-100000 BAIXO NÃO NÃO NÃO MEDIO NAO NAO SIM

Jardel de Souza 0-100000 MEDIO NÃO SIM NÃO ALTO SIM SIM NAO

Jose da Silva 0-100000 ALTO NÃO NÃO NÃO ALTO NAO SIM NAO

NOME

(15)

Desenvolvimento

• Desenvolvimento do Protótipo

– Especificação

• Análise entruturada

– Banco de dados

• Oracle

– Ferramentas

• Oracle Forms

• Oracle Graphics

(16)

Desenvolvimento (continuação)

Desenvolvimento do SIE

– Aquisição dos dados

– Acesso aos dados

Utilização do SIE especificado seguindo os processos de KDD:

– Domínio da Aplicação;

– Seleção dos Dados;

– Pré-processamento e limpeza;

– Data Mining;

(17)

Conclusões

• O Data Mining devolve informações que são induzidas dos

dados;

• O Data Mining juntamente com as etapas de KDD se

mostrou bastante eficiente para o desenvolvimento do

Sistema;

• Testes com o JEVirtual mostraram a eficiência para a

construção de modelos;

• Desvantagens do uso de Redes Neurais;

• Os objetivos do trabalho foram atingidos.

(18)

Conclusões

(continuação)

• Limitações

– Regras de pré-processamento limitadas;

– Fonte de dados externa fixa.

• Dificuldades

– Bibliografia;

– Componente.

(19)

Sugestões

• Aplicação do Data Mining em outras

tarefas/técnicas, como Classificação com o uso de

Estatística padrão;

• Possibilidade de se escolher entre mais fontes de

dados;

• Acesso aos dados através de outros Bancos de

Dados.

Referências

Documentos relacionados

No entanto, como ele observa, "como poderia o uso de encantos e encantamentos para curar doenças não ser sobre fantasmas e espíritos?" Em vez disso, ele somatiza a

Mas existe grande incerteza sobre quem detém esses direitos em certas áreas do Brasil rural.. Esta é a posição do Brasil em relação à segurança de direitos de propriedade de

This infographic is part of a project that analyzes property rights in rural areas of Brazil and maps out public policy pathways in order to guarantee them for the benefit of

Após 96 horas, houve um aumento no consumo, com o aumento de 100 para 160 ninfas, que não diferiu significativamente da densidade 220; com 280 ninfas disponíveis houve um

17 CORTE IDH. Caso Castañeda Gutman vs.. restrição ao lançamento de uma candidatura a cargo político pode demandar o enfrentamento de temas de ordem histórica, social e política

• Pele: Com auxílio de uma lâmina de bisturi realizar raspado superficial captando o material graxo da pele, transferir o material em lâmina de vidro (se necessário,

Para o melhor controle do pulgão do meloeiro, recomenda-se um planejamento criterioso da cultura, realizando uma série de medidas preventivas (controle cultural), visando se

Testes com os inseticidas pirimifós metílico e cipermetrina aplicados em combinação com os sinergistas na população de São José do Rio Preto-SP, mostraram que no tratamento