DEIS - Departamento de Engenharia Informática e de Sistemas
Mestrado em Informática e Sistemas
Tecnologias da Informação e do Conhecimento
ANO LETIVO 2011/2012
UNIDADE CURRICULAR: ANÁLISE DE DADOS
ANO CURRICULAR: 1º
SEMESTRE: 1º
Análise de Dados - Práticas Laboratoriais
Ficha de Trabalho Nº 5b
Pré-Processamento de Dados e Visual Data-Mining
Aluno:
P Pires
Lab. 5b P Pires
1. Instalação da Base de Dados
Base de Dados extraída de "Delivering Business Intelligence with Microsoft SQL Server
2005" MaxMinManufacturingDM Database.sql
1) e 2)
Inicia-se o SQL Server Management Studio e através do seu menu principal: | Open | File,
procede-se à abertura do ficheiro “Create MaxMinManufacturingDM Database.sql”.
3) Executa-se o script para a criação da base de dados
/****** Object: Database [MaxMinManufacturingDM] Script Date: 01/17/2006 22:11:56 ******/ CREATEDATABASE [MaxMinManufacturingDM] ON PRIMARY
( NAME = N'MaxMinManufacturingDM',FILENAME= N'C:\Program Files\Microsoft SQL
Server\MSSQL.1\MSSQL\Data\MaxMinManufacturingDM.mdf' , SIZE = 5120KB , MAXSIZE =UNLIMITED, FILEGROWTH = 1024KB )
LOG ON
( NAME = N'MaxMinManufacturingDM_log',FILENAME= N'C:\Program Files\Microsoft SQL
Server\MSSQL.1\MSSQL\Data\MaxMinManufacturingDM_log.ldf' , SIZE = 1024KB , MAXSIZE = 2048GB , FILEGROWTH = 10%)
COLLATE SQL_Latin1_General_CP1_CI_AS
4) Restauro da MaxMinManufacturingDM Database Backup
Após a execução do script fecha-se a janela que contem o mesmo, refresca-se e
posteriormente restaura-se a base de dados MaxMinManufacturingDM Database Backup.
1. e 2. Verificação da existência da base de dados
3. Após seleção da base de dados MaxMinManufacturingDM, e com o botão direito do
rato, procede-se aos seguintes passos:
4. e 5. Seleção do destino para o restauro
Lab. 5b P Pires
7. Após seleção do “Add” surge o ecrã “Locate Backup File”
8. Navega-se até à pasta que contem o ficheiro pretendido “MaxMinManufacturingDM
Database Backup.BAK”
e seleciona-se o mesmo.9. Clica-se no botão “OK” e regressa-se à janela anterior onde se pode verificar o ficheiro
pretendido.
10. e 11. Volta-se a clicar no botão “Ok” para se sair da janela Specify Backup e activa-se
selecionando
“Select the backup sets to restore”
.Seleciona-se o ficheiro pretendido e após o clique em “Ok” aguarda-se que a base de
dados seja restaurada.
17. Por fim e ao clicar no “OK “ sai-se da mensagem de restauro.
Lab. 5b P Pires
2. Criação do Processo de Análise de Dados
1. Abertura do Rapidminer e criação de um novo processo com ligação à base de dados
MaxMinManufacturingDM
2. Adição do operador necessário à leitura da tabela ManufacturingFact
O presente operador pode ser utilizado para selecionar um atributo (ou um subconjunto),
definindo uma expressão regular para o nome do atributo e aplicando os operadores
internos ao subconjunto resultante.
Leitura da tabela ManufacturingFact:
3. Visualização dos dados graficamente
a) Criação de Bubble Graph´s adequados ao objectivo da análise.
Lab. 5b P Pires
Gráfico II
Gráfico III
Interpretação
Pelo gráfico I, constata-se que o maior número de produtos rejeitados ocorre na
máquina n.º 2.
Porém, e de acordo com o gráfico II verifica-se que o tempo de produção
decorrido na máquina 2 é superior ao tempo decorrido nas restantes máquinas.
Por outro lado e tendo em consideração o gráfico III, verifica-se a existência de 3
ciclos de tempo decorrido para a produção relativamente aos produtos rejeitados.
b) Criação de Scatter Plot´s adequados ao objectivo da análise.
Gráfico IV
Gráfico V
Interpretação
Verificando-se que o n.º de produtos aceites (gráfico V) é muito superior ao n.º de
produtos rejeitados (gráfico IV), verifica-se que o atributo tempo decorrido de
fabrico influencia ambas as situações, sendo facilmente perceptível a existência de
3 classes de produtos em tempos de fabrico.
Lab. 5b P Pires
Gráfico VI
Interpretação
Através do n.º do lote, pode-se verificar quais os atributos que detenham maiores
valores, ou seja, número maior.
Assim, para além dos produtos aceites (já referido através do gráfico V), pode-se
visualizar que o atributo tempo decorrido de fabrico terá maior valor do que o
código do produto ou o n.º de máquina (que totaliza 6 máquinas).
d) As conclusões são coerentes, uma vez que se verificou que o atributo que parece
condicionar o fabrico dos produtos, seja a aceitação ou a rejeição, será o tempo
decorrido de fabrico, sendo o mesmo caracterizado por 3 classes distintas.
4. Adição ao processo dos operadores necessários para implementação das seguintes
operações:
a) Cálculo da Média e Desvio Padrão, tendo em consideração os atributos
“AcceptedProducts” e “RejectedProducts”.
b) Cálculo da Matriz de Covariância, tendo em conta os atributos definidos.
c) Cálculo da Matriz de Correlação, tendo em conta os atributos definidos.
ElapsedTimeForManufacture
REFAZER
a)
b)
Se Covariância ≈ 0 -> os atributos NÃO têm uma relação linear
a)
b)
Lab. 5b P Pires