• Nenhum resultado encontrado

Os Dados. Mineração de Dados 2011

N/A
N/A
Protected

Academic year: 2021

Share "Os Dados. Mineração de Dados 2011"

Copied!
24
0
0

Texto

(1)

Universidade de Évora, 2011 Mineração de dados / Data Mining 1

Os Dados

Mineração de Dados 2011

Luís Rato

(2)

Universidade de Évora, 2011 Mineração de dados / Data Mining 2

Os Dados

Bibliografia

Capítulo 2 do livro “Introduction to Data Mining”, Tan,

Pearson Edt., 2005

(3)

Universidade de Évora, 2011 Mineração de dados / Data Mining 3

O que são os “dados” ?

Coleção de objetos ou instâncias e dos

seus atributos

Atributo é uma propriedade ou

característica de um objecto

Examplos: idade, temperatura,

dimensão duma pétala, ...

Atributo é equivalente a:

característica, campo ou variável

(em inglês –

variable

,

field

,

characteristic

,

feature

, ...)

Um objeto é equivalente a: instância,

registo, ponto, caso, amostra, ou

entidade (em inglês –

instance,

record

,

point

,

case

,

sample

, ou

entity

)

Na mineração de de dados usualmente

admite-se que os dados se encontram já

sob a forma de uma “tabela” única.

Tid Refund Marital

Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 1 0

Atributos

Objetos

(instâncias)

(4)

Universidade de Évora, 2011 Mineração de dados / Data Mining 4

Valor dos atributos

O valor dos atributos são os números ou símbolos

atribuídos ao atributo.

Exemplo:

“Altura” é um atributo

Altura pode ser representada de diferentes modos

a) um dos símbolos {alto, médio, baixo} (valor nominal/símbolo)

b) 1.25 m (valor numérico, real)

c) 1250 mm (valor numérico, inteiro)

d) 49.2 polegadas (valor numérico, real)

Assim “atributos” e “valor dos atributos” são coisas

diferentes

(5)

Universidade de Évora, 2011 Mineração de dados / Data Mining 5

Propriedades dos valores dos

atributos

O tipo de atributos depende das propriedades que possui:

Distinguível: =

Ordenável: < >

Somável:

+ -

Multiplicável: * /

4 Tipos

Nominal: distinguível

Ordinal: distinguível e ordenável

Intervalo: distinguível, ordenável e somável

(6)

Universidade de Évora, 2011 Mineração de dados / Data Mining 6

Tipos of Atributos

4 tipos de atributos (segundo a “teoria dos tipos de escalas”)

http://en.wikipedia.org/wiki/Level_of_measurement

A. Qualitativos, ou discretos, ou enumerados

1. Nominal

(Nominal)

Exemplos: Côr, cidade, estado civil, número de passaporte

2. Ordinal

(Ordinal)

Exemplos: notas de um exame A a D, altura em {alto, médio, baixo}

B. Quantitativos, ou numéricos

3. Intervalo

(Interval)

Exemplos: datas, temperatura em celsius ou farhneit

4. Rácio

(Ratio)

(7)

Tipo de

Atributo

Descrição

Exemplos

Operações

Nominal

Atributos nominais são apenas

nomes, ou seja dão-nos a

informação suficiente para os

distinguirmos uns dos outros (=,

)

Codigo postal, número

fiscal, cor dos olhos,

sexo: {masc, fem}

moda, entropia,

contingência e

frequência,

correlação,...

Ordinal

Atributos ordinais permitem ordenar

objectos (<, >)

{baixo, médio, alto},

notas, número de porta

mediana, percentil,

correlação de

rank, ...

Intervalo

Atributos do tipo intervalo dão

significado às diferenças entre

valores, portantom, existe uma

unidade de medida

(+, - )

Datas, temperatura em

Celsius ou Fahrenheit

média, desvio

padrão, correlation,

F-test (análise

estatística

multivariável)

Rácio

Atributos de rácio não só as

diferenças como os rácios entre

variáveis têm significado (*, /)

temperatura em

Kelvin, dinheiro,

idade, massa,

comprimento, corrente

eléctrica

Média, média

geometrica, média

harmónica,

variação percentual

Definição

(8)

Atributo

Transformação

Comentários

Nominal

Qualquer permutação

Números de telefone fixo

acrescentandos de “244”

são equivalentes

Ordinal

Qualque transformação que

preserve a ordem e.g.,

y = f(x)

f é função monotónica

Notas A,B,C,D, ou 4,3,2,1

ou 20,15,10,5 têm a mesma

informação

Intervalo

Qualquer transformação afim (por

vezes denominada “linear”)

y =a * x + b

Assim Fahrenheit e Celsius

são equivalentes.

Rácio

y = a * x

Length can be measured in

meters or feet.

Transformações que preservam o

significado das variáveis

(9)

Universidade de Évora, 2011 Mineração de dados / Data Mining 9

Atributos discretos e contínuos

Discretos

Tem um número finito ou contável de valores

Exemplos: número fiscal, ou o conjunto de palavras usada num

documento

Usam frequentemente inteiros na sua representação

Valores binários também são valores discretos {0,1}

Contínuos

Usam número reais como valores dos atributos

Exemplos: temperatura, altura, ou peso.

No entanto os número reais são representados usando um número

finito de casas decimais

Usualmente são representados usando variáveis de virgula

flutuante (float)

(10)

Universidade de Évora, 2011 Mineração de dados / Data Mining 10

Conjuntos de dados

Registos

Matriz de dados

Documentos

Dados de transacções

Grafos

World Wide Web

Estrutura Molecular

Ordenados

Espaciais

Temporais

Sequenciais

Sequencias Genéticas

(11)

Universidade de Évora, 2011 Mineração de dados / Data Mining 11

Características dos dados estruturados

Dimensão

Númerto de atributos

Densidade (esparso)

Percentagem de valores significativos no total de valores

Resolução

Padrões dependem da escala

(12)

Universidade de Évora, 2011 Mineração de dados / Data Mining 12

Documentos

Cada documento pode ser transformado num

vetor,

(13)

Universidade de Évora, 2011 Mineração de dados / Data Mining 13

Transações

TID

Items

1

Bread, Coke, Milk

2

Beer, Bread

3

Beer, Coke, Diaper, Milk

4

Beer, Bread, Diaper, Milk

5

Coke, Diaper, Milk

(14)

Universidade de Évora, 2011 Mineração de dados / Data Mining 14

Grafos

Exemplos: grafo e links HTML

5

2

1

2

5

<a href="papers/papers.html#bbbb"> Data Mining </a>

<li>

<a href="papers/papers.html#aaaa"> Graph Partitioning </a>

<li>

<a href="papers/papers.html#aaaa">

Parallel Solution of Sparse Linear System of Equations </a> <li>

<a href="papers/papers.html#ffff">

(15)

Universidade de Évora, 2011 Mineração de dados / Data Mining 15

Estrutura química

(16)

Universidade de Évora, 2011 Mineração de dados / Data Mining 16

Dados ordenados

Sequências

elementos da

sequência

Items/Eventos

(17)

Universidade de Évora, 2011 Mineração de dados / Data Mining 17

Dados ordenados

Sequência genómica

GGTTCCGCCTTCAGCCCCGCGCC

CGCAGGGCCCGCCCCGCGCCGTC

GAGAAGGGCCCGCCTGGCGGGCG

GGGGGAGGCGGGGCCGCCCGAGC

CCAACCGAGTCCGACCAGGTGCC

CCCTCTGCTCGGCCTAGACCTGA

GCTCATTAGGCGGCAGCGGACAG

GCCAAGTAGAACACGCGAAGCGC

TGGGCTGCCTGCTGCGACCAGGG

(18)

Universidade de Évora, 2011 Mineração de dados / Data Mining 18

Dados ordenados

Dados espácio-temporais

Temperatura

mensal em terra

e no oceano

(19)

Universidade de Évora, 2011 Mineração de dados / Data Mining 19

Qualidade dos dados

Exemplos de problemas de qualidade:

Ruído e outliers (valores anómalos)

Valores em falta

(20)

Universidade de Évora, 2011 Mineração de dados / Data Mining 20

Ruído

Alteração ou distorção dos sinais originais

Exemplos: distorção do sinal de voz num telefone

(21)

Universidade de Évora, 2011 Mineração de dados / Data Mining 21

Outliers

Outliers têm características significativamente

(22)

Universidade de Évora, 2011 Mineração de dados / Data Mining 22

Valores em falta

Motivos

Informação não recolhida

Atributos não aplicáveis a todos o objectos

Tratamento

Eliminar objectos

Estimar valores em falta

(23)

Universidade de Évora, 2011 Mineração de dados / Data Mining 23

Duplicados

Pode acontecer quando se fundem fontes de

dados

Exemplos:

A mesma pessoa com vários endereços de emails

Limpeza

(24)

Universidade de Évora, 2011 Mineração de dados / Data Mining 24

Pre-processamento de dados

Agregação

Amostragem

Redução de dimensão

Selecção de atributos

Criação de atributos

Discretização e Binarização

Transformação de Atributos

Referências

Documentos relacionados

“O Decreto-Lei n.º 165/2014, de 5 de novembro, veio criar um regime excecional e transitório de uniformização dos procedimentos de regularização aplicável aos

22.3 As infrações sérias aos bons costumes ou ao desportivismo praticadas pelos chefes de equipa, treinadores ou pessoas directamente relacionadas com as equipas

We describe the initial results of a neonatal screening program for four lysosomal storage diseases (MPS I, Pompe, Gaucher and Fabry) using the digital microfluidics methodology..

• The Fabry Outcome Survey study/cohort included in the El Dib analysis provided a descriptive analysis of renal events in only 78 adult patients receiving agalsidase alfa

No  que  respeita  ao  mercado  accionista,  e  apesar  das  fortes  valorizações  registadas  em  2009,     é  esperada  uma  fase  em  que  o  mercado 

Recurso 48 horas a partir da publicação do edital de homologação Seleção de 11 de setembro até 14 de setembro de 2018. Divulgação do Resultado A partir do dia 18 de setembro

Este portão é composto por uma estrutura de alumínio idêntica à estrutura do nosso Portão BIG ALU, no entanto é composto por painéis fenólicos, capazes de resistir às

A partir do momento em que você tem dentro da negociação coletiva não mais o limite de tratar exclusivamente daqueles que já são integrantes da sua categoria, mas também de trazer