Universidade de Évora, 2011 Mineração de dados / Data Mining 1
Os Dados
Mineração de Dados 2011
Luís Rato
Universidade de Évora, 2011 Mineração de dados / Data Mining 2
Os Dados
Bibliografia
Capítulo 2 do livro “Introduction to Data Mining”, Tan,
Pearson Edt., 2005
Universidade de Évora, 2011 Mineração de dados / Data Mining 3
O que são os “dados” ?
●
Coleção de objetos ou instâncias e dos
seus atributos
●
Atributo é uma propriedade ou
característica de um objecto
–
Examplos: idade, temperatura,
dimensão duma pétala, ...
–
Atributo é equivalente a:
característica, campo ou variável
(em inglês –
variable
,
field
,
characteristic
,
feature
, ...)
●
Um objeto é equivalente a: instância,
registo, ponto, caso, amostra, ou
entidade (em inglês –
instance,
record
,
point
,
case
,
sample
, ou
entity
)
●
Na mineração de de dados usualmente
admite-se que os dados se encontram já
sob a forma de uma “tabela” única.
Tid Refund Marital
Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 1 0
Atributos
Objetos
(instâncias)
Universidade de Évora, 2011 Mineração de dados / Data Mining 4
Valor dos atributos
●
O valor dos atributos são os números ou símbolos
atribuídos ao atributo.
–
Exemplo:
“Altura” é um atributo
–
Altura pode ser representada de diferentes modos
a) um dos símbolos {alto, médio, baixo} (valor nominal/símbolo)
b) 1.25 m (valor numérico, real)
c) 1250 mm (valor numérico, inteiro)
d) 49.2 polegadas (valor numérico, real)
●
Assim “atributos” e “valor dos atributos” são coisas
diferentes
Universidade de Évora, 2011 Mineração de dados / Data Mining 5
Propriedades dos valores dos
atributos
●
O tipo de atributos depende das propriedades que possui:
–
Distinguível: =
≠
–
Ordenável: < >
–
Somável:
+ -
–
Multiplicável: * /
●
4 Tipos
–
Nominal: distinguível
–
Ordinal: distinguível e ordenável
–
Intervalo: distinguível, ordenável e somável
Universidade de Évora, 2011 Mineração de dados / Data Mining 6
Tipos of Atributos
●
4 tipos de atributos (segundo a “teoria dos tipos de escalas”)
http://en.wikipedia.org/wiki/Level_of_measurement
●
A. Qualitativos, ou discretos, ou enumerados
–
1. Nominal
(Nominal)
Exemplos: Côr, cidade, estado civil, número de passaporte
–
2. Ordinal
(Ordinal)
Exemplos: notas de um exame A a D, altura em {alto, médio, baixo}
●
B. Quantitativos, ou numéricos
–
3. Intervalo
(Interval)
Exemplos: datas, temperatura em celsius ou farhneit
–
4. Rácio
(Ratio)
Tipo de
Atributo
Descrição
Exemplos
Operações
Nominal
Atributos nominais são apenas
nomes, ou seja dão-nos a
informação suficiente para os
distinguirmos uns dos outros (=,
≠
)
Codigo postal, número
fiscal, cor dos olhos,
sexo: {masc, fem}
moda, entropia,
contingência e
frequência,
correlação,...
Ordinal
Atributos ordinais permitem ordenar
objectos (<, >)
{baixo, médio, alto},
notas, número de porta
mediana, percentil,
correlação de
rank, ...
Intervalo
Atributos do tipo intervalo dão
significado às diferenças entre
valores, portantom, existe uma
unidade de medida
(+, - )
Datas, temperatura em
Celsius ou Fahrenheit
média, desvio
padrão, correlation,
F-test (análise
estatística
multivariável)
Rácio
Atributos de rácio não só as
diferenças como os rácios entre
variáveis têm significado (*, /)
temperatura em
Kelvin, dinheiro,
idade, massa,
comprimento, corrente
eléctrica
Média, média
geometrica, média
harmónica,
variação percentual
Definição
Atributo
Transformação
Comentários
Nominal
Qualquer permutação
Números de telefone fixo
acrescentandos de “244”
são equivalentes
Ordinal
Qualque transformação que
preserve a ordem e.g.,
y = f(x)
f é função monotónica
Notas A,B,C,D, ou 4,3,2,1
ou 20,15,10,5 têm a mesma
informação
Intervalo
Qualquer transformação afim (por
vezes denominada “linear”)
y =a * x + b
Assim Fahrenheit e Celsius
são equivalentes.
Rácio
y = a * x
Length can be measured in
meters or feet.
Transformações que preservam o
significado das variáveis
Universidade de Évora, 2011 Mineração de dados / Data Mining 9
Atributos discretos e contínuos
●
Discretos
–
Tem um número finito ou contável de valores
–
Exemplos: número fiscal, ou o conjunto de palavras usada num
documento
–
Usam frequentemente inteiros na sua representação
–
Valores binários também são valores discretos {0,1}
●
Contínuos
–
Usam número reais como valores dos atributos
–
Exemplos: temperatura, altura, ou peso.
–
No entanto os número reais são representados usando um número
finito de casas decimais
–
Usualmente são representados usando variáveis de virgula
flutuante (float)
Universidade de Évora, 2011 Mineração de dados / Data Mining 10
Conjuntos de dados
●
Registos
–
Matriz de dados
–
Documentos
–
Dados de transacções
●
Grafos
–
World Wide Web
–
Estrutura Molecular
●
Ordenados
–
Espaciais
–
Temporais
–
Sequenciais
–
Sequencias Genéticas
Universidade de Évora, 2011 Mineração de dados / Data Mining 11
Características dos dados estruturados
–
Dimensão
Númerto de atributos
–
Densidade (esparso)
Percentagem de valores significativos no total de valores
–
Resolução
Padrões dependem da escala
Universidade de Évora, 2011 Mineração de dados / Data Mining 12
Documentos
●
Cada documento pode ser transformado num
vetor,
Universidade de Évora, 2011 Mineração de dados / Data Mining 13
Transações
TID
Items
1
Bread, Coke, Milk
2
Beer, Bread
3
Beer, Coke, Diaper, Milk
4
Beer, Bread, Diaper, Milk
5
Coke, Diaper, Milk
Universidade de Évora, 2011 Mineração de dados / Data Mining 14
Grafos
●
Exemplos: grafo e links HTML
5
2
1
2
5
<a href="papers/papers.html#bbbb"> Data Mining </a><li>
<a href="papers/papers.html#aaaa"> Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a> <li>
<a href="papers/papers.html#ffff">
Universidade de Évora, 2011 Mineração de dados / Data Mining 15
Estrutura química
Universidade de Évora, 2011 Mineração de dados / Data Mining 16
Dados ordenados
●
Sequências
elementos da
sequência
Items/Eventos
Universidade de Évora, 2011 Mineração de dados / Data Mining 17
Dados ordenados
●
Sequência genómica
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Universidade de Évora, 2011 Mineração de dados / Data Mining 18
Dados ordenados
●
Dados espácio-temporais
Temperatura
mensal em terra
e no oceano
Universidade de Évora, 2011 Mineração de dados / Data Mining 19
Qualidade dos dados
●
Exemplos de problemas de qualidade:
–
Ruído e outliers (valores anómalos)
–
Valores em falta
Universidade de Évora, 2011 Mineração de dados / Data Mining 20
Ruído
●
Alteração ou distorção dos sinais originais
–
Exemplos: distorção do sinal de voz num telefone
Universidade de Évora, 2011 Mineração de dados / Data Mining 21
Outliers
●
Outliers têm características significativamente
Universidade de Évora, 2011 Mineração de dados / Data Mining 22
Valores em falta
●
Motivos
–
Informação não recolhida
–
Atributos não aplicáveis a todos o objectos
●
Tratamento
–
Eliminar objectos
–
Estimar valores em falta
Universidade de Évora, 2011 Mineração de dados / Data Mining 23
Duplicados
●
Pode acontecer quando se fundem fontes de
dados
●
Exemplos:
–
A mesma pessoa com vários endereços de emails
●
Limpeza
Universidade de Évora, 2011 Mineração de dados / Data Mining 24