Sistemas de Apoio à Decisão
(SAD)
Decision Support Systems
Andreas Wichert
MEIC / MERC Tagus
(Página da cadeira: Fenix)
Objectivo Geral
Acumular
informação
para produzir
indicadores
de negócio
que permitam tomar
decisões
Extracção de
conhecimento interessante
(regras, padrões, restrições) dos dados
existentes em grandes BDs
Corpo docente
Andreas Wichert - Teóricas
andreas.wichert@ist.utl.pt tel: 214233231 room: N2 5-7
- Laboratórios
Andreas WichertHorário de dúvidas
3ª-feira (Tuesday), 14H-18H, 2-N5.7
Organização das aulas
Teóricas
:
Matéria (slides baseados no livro e artigos) Apresentação de pessoas externas
Práticas/Laboratório
:
Exercícios
Utilização do SQL Server 2008 / Windows 7 Ínicio: 27/2
Grupos: número de alunos 3
Avaliação
A Nota Final (NF) é dada por:
NF = 6.5% (1)NDW +6.5% (2)NDW+6.5% (3)NDW+6.5% (4)NDW+ 6.5% (5)NDM+6.5% (6)NDM+6.5% (7)NDM+6.5% (8)NDM+
48 % NE
Exame
1º exame: 12 de Junho
2º exame: 28 de Junho
Data Mining:
Reconhecimento
Prof. Jiawei Han
hanj@cs.uiuc.edu
University of Illinois at Urbana-Champaign
http://www-sal.cs.uiuc.edu/~hanj/
Slides:
http://www-sal.cs.uiuc.edu/~hanj/bk2/
Bibliografia - DW
Data Mining: Concepts and Techniques,
J. Han & M. Kamber, Morgan Kaufmann,
2001
The Data Warehouse Toolkit, 2nd ed,
Bibliografia - DM
Machine Learning, T. Mitchell, 1997
Reconhecimento de padrões métodos estatísticos e neuronais, JORGE SALVADOR MARQUES, 1999, IST-press, http://istpress.ist.utl.pt/lrecpad.html
Artificial ,Intelligence - A Modern Approach, Second Edition, S. Russel and P. Norvig, Prentice Hall, 2003
Artificial Intelligence - Structures and Strategies for Complex Problem Solving, Second Edition, G. L. Luger and W. A. Stubblefield, Benjamin/Cummings Publishing, 1993
Relational Data Base: Data collection
Extraction of interesting (non-trivial, implicit, previously unknown
and potentially useful) patterns or knowledge from huge amount of data (interesting patterns?)
How to represent data?
By a coordinate system!
Multidimensional databases
A Cartesian coordinate system is
determined
By its dimensions
• Time, place, “product”, “costumer”
By its value
• Sales in € or $, …
By the resolution
Our coordinate system is defined by our
Data Base
What can we do?
Look at the data
Project the data
• collapse some dimensions, how to do it?
Change the resolution
For two dimensions
Spreadsheet (Excel) with spreadsheet
formulas calculations
For more than two dimensions
We will require several spreadsheet tables
-> Data explosion
We will look for one “Excel” table with
several dimensions
First Part – data warehouse
Mapping of data represented in a data
base into a coordinate system..
Second part - Data Mining
Statistics
t-test, linear regression
Feature extracting
PCA
Machine Learning
Feature / Vector space
Sample
€
x
(1),
x
(2),..,
x
(k ),..,
x
(n ){
}
x =
x
1x
2..
∈ ℜ
dx −
y =
(x
i− y
i)
2 d∑
What is machine Learning?
Parallels between “animals” and machine
learning
Many techniques derived from efforts of
psychologist / biologists to make more
sense “animal” learning through
computational models
Machine Learning
Changes in the system that perform tasks
associated with AI
Recognition
Prediction
We might add other features that are not
correlated with the ones we already have. A
precaution should be taken not to reduce the
performance by adding such “noisy features”
However, our satisfaction is premature
because the central aim of designing a
classifier is to correctly classify novel input
We could use several tools
MySQL & Pentaho & Matlab & S & R & ….
• http://www.pentaho.com/
• http://www.cs.waikato.ac.nz/ml/weka/
Bibliografia SQL Server 2008
Microsoft SQL Server 2008 Tutorial
Microsoft SQL Server online Books
Some Information about
SQL Server
General Information about SQL Server:
http://en.wikipedia.org/wiki/Microsoft_SQL_Server
http://technet.microsoft.com/en-us/sqlserver/default.aspx
Data Mining and SQL Server:
We will use SQL Server 2008 (Windows 7)
(we will NOT use SQL Server 2008 R2)
General Information:
http://msdn.microsoft.com/en-us/library/bb545450.aspx Microsoft SQL Server 2008 Books Online (October 2009)
http://www.microsoft.com/downloads/en/details.aspx?
FamilyId=765433F7-0983-4D7A-B628-0A98145BCB97&displaylang=en
Adventure Works example database
(SQL Server 2008 SR4):
Adventure Works example database: Sample Databases for Microsoft SQL Server 2008 (December 2009) Samples Refresh 4
http://msftdbprodsamples.codeplex.com/releases/view/37109
Programa
Datawarehouse (DW) e Sistemas de Apoio à Decisão
Operações OLAP (Online Analytical Processing)
Modelo multidimensional vs modelo relacional, Teoria da normalização do modelo relacional
Programa
Pré-processamento, transformação e limpeza de dados
Exploração de dados (data mining)
Descrição de conceitos e generalização de dados
Regras de associação
Redes bayesianas
Árvores de decisão
Classificação baseada em instâncias Análise de clusters
Redes neuronais
Informação necessária para apoio
à decisão
Características
requeridas para a informação
utilizada para a tomada de decisão:
precisa
Sistemas operacionais
Contabilidade, compras, reservas,
telecomunicações, etc
Muitas fontes de dados dispersas (ficheiros
excel, BD Access) de suporte a aplicações do
tipo: SAP, ERPs, etc
Alguns
problemas
: acesso aos dados díficil,
qualidade de dados duvidosa, dados
estruturados à aplicação (ex: códigos
específicos), suporte a interrogações simples
Conceito de um DW
Conjunto centralizado de dados:
temáticos históricos datados integrados