apresentacaoUFABC

(1)

Profa. Dra. Maria Camila Nardini Barioni

[email protected]

Centro de Matemática Computa¸cão e Cogni¸cão -UFABC

Santo Andr´e 11 de julho de 2011

(2)

1 Introdu¸c˜ao

2 Conceitos Fundamentais

3 Suportando Consultas por Similaridade em SQL

4 Algoritmo PAM-SLIM

5 Prot´otipo SIREN

(3)

1 Introdu¸c˜ao

5 Prot´otipo SIREN

(4)

Usuário/Aplicação DBA Compilador de consulta Gerenciador de transação Compilador DDL Engine de Execução Recuperação e log Controle de concorrência consultas, atualizações comandos de transações comandosDDL metadados metadados, estatísticas plano de consulta Buffers Buffers

Execução e log concorrência

Gerenciador de re-gistro/arquivo/índice Gerenciador de Buffer BuffersTabela bloqueio requisições de registro, arquivo e índice páginas de log comandos de página escrita/leitura dados, metadados, índice Gerenciador de Armazenamento Armazena-mento escrita/leitura página estrutura em memória componentes

fluxo de controle e dados

(5)

Introdu¸c˜

ao

Motiva¸c˜ao

Os SGBD foram desenvolvidos para lidar com dados num´ericos e textuais (dados tradicionais)

Busca⇒baseada na propriedade de ordem total

A<B <C

As aplica¸c˜oes de bases de dados modernas necessitam lidar com tipos de dados complexos

(6)

Introdu¸c˜

ao

Motiva¸c˜ao

100<1.000 <10.000 A<B <C

de dados complexos

(7)

Motiva¸c˜ao

100<1.000 <10.000 A<B <C

(8)

Motiva¸c˜ao

100<1.000 <10.000 A<B <C

(9)

Motiva¸c˜ao

100<1.000 <10.000 A<B <C

(10)

Introdu¸c˜

ao

Consultas por Similaridade

Contribuem para a necessidade de criar um suporte para a realiza¸c˜ao de consultas por similaridade em SGBDR:

armazenados em bases de dados relacionais

A integra¸cão de métodos de minera¸cão de dados com SGBDR

Ponto fundamental: disponibiliza¸cão de opera¸cões básicas para as técnicas de minera¸cão de dados existentes

ex.: deteçcão de agrupamentos de dados⇒cálculo de medidas de similaridade entre os pares de objetos de um conjunto de dados

(11)

Introdu¸c˜

ao

O aumento da quantidade de dados de dom´ınios complexos armazenados em bases de dados relacionais

(12)

O aumento da quantidade de dados de dom´ınios complexos armazenados em bases de dados relacionais

A integra¸cão de métodos de minera¸cão de dados com SGBDR

(13)

Quest˜oes importantes:

1 _{Como comparar dados complexos?}

2 Como indexar conjuntos de dados complexos?

3 Como expressar consultas sobre esses dados no SGBD?

4 Como otimizar os algoritmos de deteçcão de agrupamentos de maneira a torná-los exeqü´ıveis em SGBD?

(14)

1 Introdu¸c˜ao

5 Prot´otipo SIREN

(15)

Conceitos Fundamentais

Dom´ınios de dados complexos

Dados de dom´ınios complexos podem ser armazenados em um banco de dados:

ex.: s´eries temporais, informa¸c˜oes geo-referenciadas, ...

compara¸cão por similaridade: aplica¸cão de fun¸cão de distância sobre os valores dos atributos que os compõem

2 Objeto bin´ario BLOB

ex.: imagens, trilhas de ´audio, ...

compara¸cão por similaridade: aplica¸cão de fun¸cão de distância sobre um conjunto pré-definido de caracter´ısticas inerentes aos dados

(16)

Conceitos Fundamentais

1 _{Conjunto de atributos de dom´ınios tradicionais}

(17)

1 _{Conjunto de atributos de dom´ınios tradicionais}

2 Objeto bin´ario BLOB

(18)

Conceitos Fundamentais

Como representar dados complexos?

Representa¸c˜ao das Imagens

Imagem original

(19)

Conceitos Fundamentais

Imagem original

Extrator de Características

(20)

Conceitos Fundamentais

Imagem

original _{características}Vetor de Extrator de Características

x

1

x

2

x

n . . .

(21)

Conceitos Fundamentais

Imagem

x

1

x

2

x

n . .

. _{espaço das}Ponto no características

(22)

Imagem

x

1

x

2

x

n . .

. _{espaço das}Ponto no características

(23)

(24)

Como representar dados complexos? Extração x 1 x 2 x n . . . Extração Extração x 1 x 2 x n . . . x 1 x 2 x n . . .

(25)

Como representar dados complexos? Extração x 1 x 2 x n . . . Extração Extração x 1 x 2 . . . x 1 x 2 x n . . .

(26)

Como representar dados complexos? Extração x 1 x 2 x n . . . Extração Extração x 1 x 2 x n . . . x 1 x 2 x n . . . Menor similaridade Maior similaridade

(27)

Como representar dados complexos? Extração x 1 x 2 x n . . . Extração Extração x 1 x 2 . . . x 1 x 2 x n . . . Menor similaridade Maior similaridade Mais próximo Mais distante

(28)

Como representar dados complexos? Extração x 1 x 2 x n . . . Extração Extração x 1 x 2 x n . . . x 1 x 2 x n . . . Menor similaridade Maior similaridade Mais próximo Mais distante Cálculo da similaridade: função de distância

(29)

(30)

(31)

Espaço multi-dimensional ou espaço métrico

(32)

Como comparar dados complexos?

Espa¸co M´etrico

Defini¸cão: Um espa¸co métrico M é definido pelo par {S, d()}, onde S define o dom´ınio dos dados e d () é uma fun¸cão de distância que atende `

as propriedades:

Simetria: d (s1, s2) = d (s2, s1)

N˜ao-negatividade: 0 ≤ d (s1, s2) < ∞

Desigualdade triangular: d (s1, s2) ≤ d (s1, s3) + d (s3, s2)

(33)

Exemplo de fun¸c˜ao de distˆancia para dom´ınios vetoriais:

fun¸c˜ao de distˆancia Lp (Minkowski)

d (x , y ) =qp Pn

i =1|xi− yi| p

(34)

d (x , y ) =qp Pn

i =1|xi− yi| p

onde n ´e a dimens˜ao do espa¸co vetorial

q

ξ

Manhattan 1 3 2

L

1 1

(35)

d (x , y ) =qp Pn

i =1|xi− yi| p

q

ξ

Manhattan 1 3 2

L

2

L

1 1 2 1

(36)

d (x , y ) =qp Pn

i =1|xi− yi| p

q

ξ

Manhattan Euclidiana Chebyshev 1 3 2

L

8

L

2

L

1 1 2 3 1 2 1

(37)

Exemplo de fun¸cão de distância para dom´ınios não-vetoriais:

Fun¸c˜ao de distˆancia LEDIT(x , y )⇒quantidade m´ınima de caracteres

que precisam ser substitu´ıdos, removidos ou inseridos em x , para que ela se torne igual a y

Exemplos:

LEDIT(’amora’,’aroma’) = 2 (duas substitui¸c˜oes)

(38)

Conceitos Fundamentais

Como consultar?

Na literatura apresentam-se:

Duas opera¸cões que comparam um objeto de referência com aqueles armazenados em uma cole¸cão de objetos

⇒

sele¸c˜ao

Consulta por abrangˆencia (Range query)

Consulta aos k-vizinhos mais pr´oximos (k-Nearest neighbor query)

cole¸c˜oes de objetos

⇒

jun¸c˜ao

Jun¸c˜ao por abrangˆencia (Range Join)

Jun¸cão pelos k-vizinhos mais próximos (k-Nearest Neighbors Join) Jun¸cão dos k-pares de vizinhos mais próximos (k-Closest

(39)

Como consultar?

Na literatura apresentam-se:

Duas opera¸cões que comparam um objeto de referência com aqueles armazenados em uma cole¸cão de objetos

⇒

sele¸c˜ao

Consulta por abrangˆencia (Range query)

Consulta aos k-vizinhos mais pr´oximos (k-Nearest neighbor query)

Três opera¸cões que comparam pares de objetos armazenados em duas cole¸cões de objetos

⇒

jun¸c˜ao

Jun¸c˜ao por abrangˆencia (Range Join)

Jun¸cão pelos k-vizinhos mais próximos (k-Nearest Neighbors Join) Jun¸cão dos k-pares de vizinhos mais próximos (k-Closest

(40)

Como consultar?

Para exemplificar:

Conjunto de dados CidadeBR

Cada tupla⇒nome da cidade + coordenadas geogr´aficas

Medida de similaridade⇒distância entre as cidades computada pela aplica¸cão da fun¸cão de distância Euclidiana sobre as suas coordenadas

(41)

Como consultar? – Exemplo Sele¸c˜ao por Similaridade São Carlos Ibaté Araraquara Dourado Ribeirão Bonito Brotas Itirapina Corumbataí Analândia Araras Leme Descalvado (-22.02, 47.89)

(42)

Como consultar? – Exemplo Sele¸c˜ao por Similaridade

L

2 k = 5 São Carlos Ibaté Araraquara Dourado Ribeirão Bonito Brotas Itirapina Corumbataí Analândia Araras Leme Descalvado (-22.02, 47.89) CidadeBR k obj d NNq k c ) ( − < (),{ }, >

σ

^ Seleção dos k-vizinhos mais próximos:

(43)

Como consultar? – Exemplo Sele¸c˜ao por Similaridade São Carlos Ibaté Araraquara Dourado Ribeirão Bonito Brotas Itirapina Corumbataí Analândia Araras Leme Descalvado (-22.02, 47.89) k = 5 CidadeBR k obj d NNq k c ) ( − < (),{ }, >

σ

^ Seleção dos k-vizinhos mais próximos:

(44)

Como consultar? – Exemplo Sele¸c˜ao por Similaridade

L

2 São Carlos Ibaté Araraquara Dourado Ribeirão Bonito Brotas Itirapina Corumbataí Analândia Araras Leme Descalvado (-22.02, 47.89) 3 . 0 = ξ

CidadeBR

c obj d Rq

)

(

_< _(),_{ _},_ξ_>

σ

^

(45)

Como consultar? – Exemplo Sele¸c˜ao por Similaridade São Carlos Ibaté Araraquara Dourado Ribeirão Bonito Brotas Itirapina Corumbataí Analândia Araras Leme Descalvado (-22.02, 47.89) 3 . 0 = ξ

CidadeBR

c obj d Rq

)

(

_< _(),_{ _},_ξ_>

σ

^

(46)

Como consultar? – Exemplo Jun¸c˜ao por Similaridade

São Paulo _{Rio de}

Janeiro Vitória Belo Horizonte 11 . 0 = ξ

CidadeBR

CapitalSERq<d(),ξ > L 2

(47)

Janeiro Vitória Belo Horizonte

ξ

11 . 0 = ξ

CidadeBR

CapitalSERq<d(),ξ >

(48)

Como consultar? – Exemplo Jun¸c˜ao por Similaridade Rio de Janeiro Vitória Belo Horizonte

ξ

CapitalSE CidadeBR

São Paulo-SP São Caetano do Sul-SP Belo Horizonte-MG

Belo Horizonte-MG

Contagem-MG Nova Lima-MG Rio de Janeiro-RJ Niterói-RJ

Vitória-ES Vitória-ES Vila Velha-ES Cariacica-ES 11 . 0 = ξ

CidadeBR

CapitalSERq<d(),ξ >

(49)

Janeiro Vitória Belo Horizonte

CidadeBR

CapitalSEk−NNq<d(),k> k = 2

Junção pelos k-vizinhos mais próximos:

(50)

Janeiro Vitória Belo Horizonte L 2

CidadeBR

CapitalSEk−NNq<d(),k> k = 2

(51)

Como consultar? – Exemplo Jun¸c˜ao por Similaridade Rio de Janeiro Vitória Belo Horizonte CapitalSE CidadeBR

São Paulo-SP São Caetano do Sul-SP Belo Horizonte-MG

Belo Horizonte-MG

Contagem-MG Nova Lima-MG Rio de Janeiro-RJ Niterói-RJ

Vitória-ES Vila Velha-ES Rio de Janeiro-RJ Duque de Caxias-RJ

São Paulo-SP Diadema-SP

CidadeBR

CapitalSEk−NNq<d(),k>

k = 2

(52)

Janeiro Vitória Belo Horizonte k = 2

CidadeBR

CapitalSEk−CNq<d(),k> L 2

Junção dos k-pares de vizinhos mais próximos:

(53)

Janeiro Vitória Belo Horizonte k = 2

CidadeBR

CapitalSEk−CNq<d(),k> Junção dos k-pares de vizinhos mais próximos:

(54)

Como consultar? – Exemplo Jun¸c˜ao por Similaridade Rio de Janeiro Vitória Belo Horizonte CapitalSE CidadeBR Vitória-ES Vitória-ES Vila Velha-ES Cariacica-ES k = 2

CidadeBR

CapitalSEk−CNq<d(),k> Junção dos k-pares de vizinhos mais próximos:

(55)

Como indexar conjuntos de dados complexos?

Estruturas de Indexa¸c˜ao (M´etodos de Acesso)

São utilizadas para agilizar a realiza¸cão de consultas por similaridade Para espa¸cos métricos: Métodos de Acesso Métrico (MAM)

s1 s1 s2 s2 s6 s6 s3 s3 s10 s10 s13 s13 s8 s8 s9 s9 s11 s11 ss1414 s7 s7 s5 s5 s12 s12 _s 4 s4 s15 s15

(56)

s1 s1 s1 s1 s1 s1 s2 s2 s2 s2 s7 s7 s7 s7 s7 s7 s5 s5 s5 s5 ss66 s6 s6 s3 s3 ss1010 ss1212 ss88 s8 s8 s9 s9 ss1111 ss44 ss1515 ss1414 root node root node s6 s6 ss1313 index node index node leaf node leaf node s1 s1 s2 s2 s6 s6 s3 s3 s10 s10 s13 s13 s8 s8 s9 s9 s11 s11 ss1414 s7 s7 s5 s5 s12 s12 _s 4 s4 s15 s15

(57)

s s s1 s1 s1 s1 s s s2 s2 s s s7 s7 s7 s7 s s s5 s5 ss66 s6 s6 s s ss ss ss s8 s8 s s ss ss ss ss ss ss s1 s1 s2 s2 s6 s6 s3 s3 s10 s10 s13 s13 s8 s8 s9 s9 s11 s11 ss1414 s7 s7 s5 s5 s12 s12 _s 4 s4 s15 s15 root node root node index node index node leaf leaf

(58)

s1 s1 s1 s1 s1 s1 s2 s2 s2 s2 s7 s7 s7 s7 s7 s7 s5 s5 s5 s5 ss66 s6 s6 s3 s3 ss1010 ss1212 ss88 s8 s8 s9 s9 ss1111 ss44 ss1515 ss1414 ss66 ss1313 s1 s1 s2 s2 s6 s6 s3 s3 s10 s10 s13 s13 s8 s8 s9 s9 s11 s11 ss1414 s7 s7 s5 s5 s12 s12 _s 4 s4 s15 s15 root node root node index node index node leaf node leaf node

(59)

(60)

s1 s1 s1 s1 s1 s1 s2 s2 s2 s2 s7 s7 s7 s7 s7 s7 s5 s5 s5 s5 ss66 s6 s6 s3 s3 ss1010 ss1212 ss88 s8 s8 s9 s9 ss1111 ss44 ss1515 ss1414 ss66 ss1313 s1 s1 s2 s2 s6 s6 s3 s3 s10 s10 s13 s13 s8 s8 s9 s9 s11 s11 ss1414 s7 s7 s5 s5 s12 s12 _s 4 s4 s15 s15 root node root node index node index node leaf node leaf node

(61)

(62)

Descoberta de Conhecimento em Bases de Dados e Minera¸c˜ao de Dados

Processo interativo e iterativo que envolve trˆes etapas:

Base de Dados Base de Dados Flat Files Conhecimento Limpeza e Integração Seleção e Transformação Mineração de Dados Avaliação e Apresentação Padrões Pré-processamento Descoberta de Padrões Avaliação dos Resultados

(63)

Processo interativo e iterativo que envolve trˆes etapas:

Base de Dados Base de Dados Flat Files Conhecimento Limpeza e Integração Seleção e Transformação Mineração de Dados Avaliação e Apresentação Padrões Pré-processamento Descoberta de Padrões Avaliação dos Resultados

(64)

Conceitos Fundamentais

Demanda:

Algoritmos de minera¸c˜ao de dados escal´aveis

Disponibilizar opera¸c˜oes b´asicas pelos SGBD

Exemplo

Técnica: Deteçcão de Agrupamentos

(65)

Demanda:

Algoritmos de minera¸cão de dados escaláveis Estratégia:

Disponibilizar opera¸c˜oes b´asicas pelos SGBD

Exemplo

Técnica: Deteçcão de Agrupamentos

(66)

Conceitos Fundamentais

Detec¸c˜ao de agrupamentos

Detec¸c˜ao de Agrupamentos

Defini¸c˜ao: Processo de divis˜ao de objetos em classes (ou grupos) de objetos similares de acordo com uma medida de similaridade

Hier´arquico

cria uma hierarquia de agrupamentos, formada por v´arios n´ıveis de parti¸c˜oes aninhadas de um conjunto de dados

Particionamento

constrói um único n´ıvel de parti¸cão que divide os dados em k agrupamentos representados por

(67)

Duas categorias de algoritmos Hier´arquico

Particionamento

(68)

Particionamento

Centróides (k-média) Medóides (k-medóide)

(69)

Particionamento

(70)

Conceitos Fundamentais

Raz˜oes para a escolha dos algoritmos baseados no k-med´oide

São menos sens´ıveis quanto à presen¸ca de outliers Não apresentam limita¸cões quanto ao tipo de atributo Não dependem da ordem de entrada dos dados

Desvantagens

Apresentam um custo computacional muito elevado

⇓

Estratégia de otimiza¸cão: selecionar uma amostragem do conjunto de dados antes da realiza¸cão do processo de agrupamento dos dados

(71)

Conceitos Fundamentais

Raz˜oes para a escolha dos algoritmos baseados no k-med´oide Vantagens

⇓

(72)

Conceitos Fundamentais

Desvantagens

⇓

(73)

Conceitos Fundamentais

Desvantagens

⇓

(74)

Desvantagens

⇓

(75)

Conceitos Fundamentais

Objetivo:

encontrar um conjunto de agrupamentos n˜ao sobrepostos de modo que cada agrupamento possua um objeto representante (med´oide)

Inicializa¸c˜ao

seleciona-se um conjunto inicial de k med´oides

Avalia¸c˜ao

uma fun¸cão de pontua¸cão, baseada na soma da distância total entre os objetos não selecionados e seus medóides é minimizada

Quanto menor a soma das distˆancias entre os med´oides e todos os outros objetos de seus agrupamentos, melhor o resultado do agrupamento

(76)

Objetivo:

encontrar um conjunto de agrupamentos n˜ao sobrepostos de modo que cada agrupamento possua um objeto representante (med´oide) Passos principais:

Inicializa¸c˜ao

seleciona-se um conjunto inicial de k med´oides

Avalia¸c˜ao

uma fun¸cão de pontua¸cão, baseada na soma da distância total entre os objetos não selecionados e seus medóides é minimizada

Quanto menor a soma das distˆancias entre os med´oides e todos os outros objetos de seus agrupamentos, melhor o resultado do agrupamento

(77)

Conceitos Fundamentais

Exemplo abordagem k-med´oide

Algoritmos utilizados no trabalho

Abordagem

K

-medóide

(78)

Conceitos Fundamentais

k med´oides iniciais s˜ao escolhidos aleatoriamente

Algoritmos utilizados no trabalho

Abordagem

K

-medóide

m1

Y

2 m2

X

(79)

Conceitos Fundamentais

Os objetos são atribuidos aos medóides mais próximos

Algoritmos utilizados no trabalho

Abordagem

K

-medóide

m1

Y

2 m2

(80)

Conceitos Fundamentais

Muda-se os med´oides para os objetos centrais de cada agrupamento

Algoritmos utilizados no trabalho

Abordagem

K

-medóide

Y

m2

m1

X

(81)

Conceitos Fundamentais

Atualizam-se os objetos mais pr´oximos dos novos med´oides

Algoritmos utilizados no trabalho

Abordagem

K

-medóide

Y

m2

(82)

Conceitos Fundamentais

Novos medóides são calculados. Repete-se até estabilizar

Algoritmos utilizados no trabalho

Abordagem

K

-medóide

Y

m2

m1

X

(83)

Conceitos Fundamentais

Algoritmos mais conhecidos:

Melhor qualidade

Maior custo computacional

⇒

O(k(N − k)2)

CLARA (Clustering LARge Applications)

Baseado em amostragem

⇒

O(ks2+ k(N − k))

Conjunto de dados aumenta

⇒

qualidade degrada

CLARANS (Clustering Large Applications based upon RANdomized Search)

Baseado em busca aleat´oria

(84)

Conceitos Fundamentais

PAM (Partitioning Around Medoids)

Melhor qualidade

⇒

O(k(N − k)2)

⇒

O(ks2+ k(N − k))

⇒

qualidade degrada

(85)

Conceitos Fundamentais

Melhor qualidade

⇒

O(k(N − k)2)

⇒

O(ks2+ k(N − k))

⇒

qualidade degrada

Search)

(86)

Melhor qualidade

⇒

O(k(N − k)2)

⇒

O(ks2+ k(N − k))

⇒

qualidade degrada

(87)

1 Introdu¸c˜ao

5 Prot´otipo SIREN

(88)

Suportando Consultas por Similaridade em SQL

Os dom´ınios de objetos complexos podem ser separados em:

Tipo de objeto: composto por uma cole¸cão de atributos tradicionais Forma de compara¸cão: os valores armazenados nos atributos tradicionais são utilizados para calcular a distância entre cada par de objetos complexos

MONOLITHIC

Tipo de objeto: armazenado como um ´unico objeto bin´ario BLOB (atributo indivis´ıvel)

Forma de compara¸cão: é necessário aplicar algoritmos de extra¸cão de caracter´ısticas sobre eles

(89)

Suportando Consultas por Similaridade em SQL

Os dom´ınios de objetos complexos podem ser separados em: PARTICULATE

(90)

Os dom´ınios de objetos complexos podem ser separados em: PARTICULATE

MONOLITHIC

(91)

Tipos de dados complexos

Para realizar consultas por similaridade em dom´ınios complexos ´

E necess´ario definir cada dom´ınio onde a similaridade ser´a medida como um novo tipo de dados

Novos tipos de dados

PARTICULATE PARTICULATE MONOLITHIC STILLIMAGE AUDIO PARTICULATE PARTICULATE MONOLITHIC STILLIMAGE AUDIO

(92)

Passos para a realiza¸c˜ao de consultas por similaridade em SQL DDL

1 _{Definir medidas de similaridade (M´}_etricas)

2 _{Especificar tipos de dados complexos na defini¸}_c˜_{ao de tabelas} 3 _{Associar atributos complexos com medidas de similaridade} 4 _{Definir ´ındices (opcional)}

DML

5 _{Popular/atualizar a base de dados} 6 Especificar consultas

(93)

Suportando Consultas por Similaridade em SQL

Definir medidas de similaridade – M´etricas

Novos comandos

CREATE METRIC ALTER METRIC DROP METRIC

CREATE METRIC Euclidiana2D USING LP2 FOR PARTICULATE

(Latitude FLOAT, Longitude FLOAT);

CREATE METRIC Histograma USING LP1 FOR STILLIMAGE

(94)

Definir medidas de similaridade – M´etricas Novos comandos CREATE METRIC ALTER METRIC DROP METRIC Exemplos:

CREATE METRIC Euclidiana2D USING LP2 FOR PARTICULATE

(Latitude FLOAT, Longitude FLOAT);

CREATE METRIC Histograma USING LP1 FOR STILLIMAGE

(95)

Suportando Consultas por Similaridade em SQL

Especificar tipos de dados complexos na defini¸c˜ao de tabelas – Exemplos

PARTICULATE

CREATE TABLE CidadeBR ( Nome CHAR(30) PRIMARY KEY,

Lat FLOAT,

Longit FLOAT,

Coordenada PARTICULATE, ...);

MONOLITHIC

CREATE TABLE Paisagem ( Id INTEGER PRIMARY KEY, Local CHAR(20),

Fotografo CHAR(30),

Foto STILLIMAGE,

... );

São Carlos-SP -22.02 47.89 1203

Id Local Fotografo Foto

Cristo Redentor

-RJ

Humberto 196

Nome Lat Longit Coordenada

São Carlos-SP -22.02 47.89 1203

Cristo Redentor

-RJ

Humberto 196

(96)

Suportando Consultas por Similaridade em SQL

PARTICULATE

Lat FLOAT,

Longit FLOAT,

MONOLITHIC

Fotografo CHAR(30),

Foto STILLIMAGE,

... );

São Carlos-SP -22.02 47.89 1203

Cristo Redentor

-RJ

Humberto 196

São Carlos-SP -22.02 47.89 1203

Cristo Redentor

-RJ

Humberto 196

(97)

PARTICULATE

Lat FLOAT,

Longit FLOAT,

MONOLITHIC

Fotografo CHAR(30),

Foto STILLIMAGE,

São Carlos-SP -22.02 47.89 1203

Cristo Redentor

-RJ

Humberto 196

São Carlos-SP -22.02 47.89 1203

Cristo Redentor

-RJ

Humberto 196

(98)

Associar atributos complexos com medidas de similaridade

A defini¸cão de como comparar pares de dados de tipos complexos é expressa como uma restri¸cão no comando CREATE TABLE:

Restri¸c˜ao de coluna Restri¸c˜ao de tabela

(99)

Associar atributos complexos com medidas de similaridade – Exemplo

PARTICULATE:

CREATE METRIC Euclidiana2D USING LP2

FOR PARTICULATE (Latitude FLOAT,

Longitude FLOAT); CREATE TABLE CidadeBR (

Nome CHAR(30) PRIMARY KEY,

Lat FLOAT,

Longit FLOAT,

Coordenada PARTICULATE,

METRIC (Coordenada) REFERENCES (Lat AS Latitude,

Longit AS Longitude)

USING (Euclidiana2D),

(100)

Associar atributos complexos com medidas de similaridade – Exemplo

MONOLITHIC:

CREATE METRIC Histograma USING LP1

FOR STILLIMAGE (HistogramaEXT (HistogramaC AS Histo));

CREATE METRIC Textura USING LP1

FOR STILLIMAGE (TexturaEXT (TexturaC AS Text));

Fotografo CHAR(30),

Foto STILLIMAGE METRIC USING (Histograma DEFAULT, Textura),

(101)

Suportando Consultas por Similaridade em SQL

Definir ´ındices (opcional)

Consultas por similaridade podem ser realizadas mais rapidamente se forem criados ´ındices sobre os atributos complexos

M´etodos de acesso m´etrico (MAM)

PARTICULATE:

CREATE INDEX Geografia ON CidadeBR (Coordenada)

REFERENCES (Lat AS Latitute, Longit AS Longitude)

USING Euclidiana2D;

MONOLITHIC:

CREATE INDEX FotoPaisagem ON Paisagem (Foto)

(102)

Definir ´ındices (opcional)

Consultas por similaridade podem ser realizadas mais rapidamente se forem criados ´ındices sobre os atributos complexos

M´etodos de acesso m´etrico (MAM)

Exemplos:

PARTICULATE:

CREATE INDEX Geografia ON CidadeBR (Coordenada)

REFERENCES (Lat AS Latitute, Longit AS Longitude)

USING Euclidiana2D;

MONOLITHIC:

CREATE INDEX FotoPaisagem ON Paisagem (Foto)

(103)

Popular/atualizar a base de dados

Para a sintaxe do comando INSERT não foi necessário nenhuma altera¸cão

A sintaxe dos comandos UPDATE e DELETE necessitam de novas constru¸c˜oes para expressar predicados por similaridade

(104)

Suportando Consultas por Similaridade em SQL

Especificar consultas

Comando SELECT

Novas constru¸c˜oes para predicados por similaridade

⇒

cl´ausula WHERE Jun¸c˜oes por similaridade

⇒

cl´ausula FROM

Novas constru¸c˜oes para suportar a an´alise de agrupamento por similaridade

(105)

Suportando Consultas por Similaridade em SQL

Comando SELECT

Sele¸c˜oes e jun¸c˜oes por similaridade

⇒

cl´ausula WHERE

Jun¸c˜oes por similaridade

⇒

cl´ausula FROM

(106)

Suportando Consultas por Similaridade em SQL

Comando SELECT

⇒

cl´ausula FROM

(107)

Comando SELECT

⇒

cl´ausula FROM

(108)

Comando SELECT

Sintaxe b´asica para expressar sele¸c˜oes por similaridade: <atributo> NEAR <valor>

[STOP AFTER <k >] [RANGE <ξ>]

(109)

Exemplos de sele¸c˜oes por similaridade: PARTICULATE:

SELECT * FROM CidadeBR

WHERE Coordenada NEAR (-22.02 AS Latitude,

47.89 AS Longitude) RANGE 2; SELECT Nome FROM CidadeBR

WHERE Coordenada NEAR (SELECT Lat AS Latitude,

Longit AS Longitude

FROM CidadeBR

WHERE Nome = ‘S~ao Carlos-SP’)

(110)

Exemplos de sele¸c˜oes por similaridade: MONOLITHIC:

SELECT * FROM Paisagem

WHERE Foto NEAR ‘c:\img09.jpg’ STOP AFTER 5;

SELECT * FROM Paisagem

WHERE Foto NEAR (SELECT Foto FROM Paisagem

(111)

Suportando Consultas por Similaridade em SQL

Sintaxe básica para expressar jun¸cões por similaridade na cláusula WHERE:

T1.atr1NEAR T2.atr2RANGE ξ

⇒

jun¸c˜ao por abrangˆencia

T1.atr1 NEAR T2.atr2 STOP AFTER k

⇒

jun¸c˜ao pelos k-vizinhos mais pr´oximos

T1.atr1 NEAR ANY T2.atr2 STOP AFTER k

⇒

jun¸c˜ao dos k-pares de vizinhos mais pr´oximos

(112)

Sintaxe básica para expressar jun¸cões por similaridade na cláusula WHERE:

Tipos de constru¸c˜oes:

T1.atr1NEAR T2.atr2RANGE ξ

⇒

jun¸c˜ao por abrangˆencia

T1.atr1 NEAR T2.atr2 STOP AFTER k

⇒

jun¸c˜ao pelos k-vizinhos mais pr´oximos

T1.atr1 NEAR ANY T2.atr2 STOP AFTER k

⇒

jun¸c˜ao dos k-pares de vizinhos mais pr´oximos

(113)

Exemplo de jun¸c˜ao por similaridade:

São Paulo Rio de Janeiro Vitória Belo Horizonte ξ ξ ξ ξ 11 . 0 = ξ CidadeBR CapitalSERq<d(),ξ> L 2

(114)

Exemplo de jun¸c˜ao por similaridade:

São Paulo Rio de Janeiro Vitória Belo Horizonte ξ ξ ξ ξ 11 . 0 = ξ CidadeBR CapitalSERq<d(),ξ> L 2 SELECT *

FROM CapitalSE, CidadeBR WHERE CapitalSE.Coordenada NEAR

CidadeBR.Coordenada RANGE 0.11;

(115)

Sintaxe para expressar jun¸c˜oes por similaridade na cl´ausula FROM:

<tabela1> {RANGE|NEAREST|CLOSEST} JOIN <tabela2>

ON <nome atr complexo1> {NEAR|FAR}

(116)

Sintaxe para expressar jun¸c˜oes por similaridade na cl´ausula FROM:

<tabela1> {RANGE|NEAREST|CLOSEST} JOIN <tabela2>

ON <nome atr complexo1> {NEAR|FAR}

(117)

Suportando Consultas por Similaridade em SQL

Sintaxe para expressar opera¸cões de agrupamento por similaridade: Como resultado do processo de deteçcão de agrupamentos

rela¸c˜ao de agrupamentos encontrados

⇒

Cluster

rela¸c˜ao que associa cada objeto do conjunto de dados ao objeto central de seu agrupamento

⇒

Clustering

Para mostrar os agrupamentos de cada instˆancia do atributoFoto da tabelaPaisagemresultantes do processoPam FP

SELECT * FROM Clustering(Pam FP);

Para mostrar todos os agrupamentos de um atributoFoto resultantes do processoPam FP

(118)

Sintaxe para expressar opera¸cões de agrupamento por similaridade: Como resultado do processo de deteçcão de agrupamentos

rela¸c˜ao de agrupamentos encontrados

⇒

Cluster

rela¸c˜ao que associa cada objeto do conjunto de dados ao objeto central de seu agrupamento

⇒

Clustering

Exemplos:

Para mostrar os agrupamentos de cada instˆancia do atributoFoto da tabelaPaisagemresultantes do processoPam FP

SELECT * FROM Clustering(Pam FP);

Para mostrar todos os agrupamentos de um atributoFoto resultantes do processoPam FP

(119)

Suportando Consultas por Similaridade em SQL

Para parametrizar as opera¸c˜oes de agrupamento por similaridade ´e preciso definir:

1 _{A m´}_{etrica que deve ser utilizada} 2 _{O n´}_{umero de agrupamentos k}

3 _{Qual algoritmo de detec¸c˜}_{ao de agrupamentos utilizar}

SET CLUSTERING <nome processo> METHOD <nome m´etodo>, METRIC <nome m´etrica>, K <valor inteiro> ON <nome tabela>.<nome atributo>;

(120)

Para parametrizar as opera¸c˜oes de agrupamento por similaridade ´e preciso definir:

1 _{A m´}_{etrica que deve ser utilizada} 2 _{O n´}_{umero de agrupamentos k}

3 _{Qual algoritmo de detec¸c˜}_{ao de agrupamentos utilizar}

Sintaxe:

SET CLUSTERING <nome processo> METHOD <nome m´etodo>, METRIC <nome m´etrica>, K <valor inteiro> ON <nome tabela>.<nome atributo>;

(121)

Suportando Consultas por Similaridade em SQL

A sintaxe apresentada permite

entre si

com predicados tradicionais

Consultar por similaridade qualquer conjunto de objetos complexos para o qual seja poss´ıvel definir uma medida de similaridade

dom´ınio MONOLITHIC dom´ınio PARTICULATE

Otimizar consultas por similaridade

Especificar consultas sobre o resultado de processos de agrupamento por similaridade

⇓

(122)

Suportando Consultas por Similaridade em SQL

Combinar predicados por similaridade

entre si

para o qual seja poss´ıvel definir uma medida de similaridade

⇓

(123)

Suportando Consultas por Similaridade em SQL

entre si

⇓

(124)

Suportando Consultas por Similaridade em SQL

entre si

por similaridade

⇓

(125)

Suportando Consultas por Similaridade em SQL

entre si

⇓

(126)

entre si

⇓

(127)

1 Introdu¸c˜ao

5 Prot´otipo SIREN

(128)

Algoritmo PAM-SLIM

Algoritmo desenvolvido: PAM-SLIM

k-medoid

Utilizando MAM para selecionar um sub-conjunto de objetos relevantes

(129)

Algoritmo PAM-SLIM

Melhora a eficiˆencia dos algoritmos de agrupamento baseados no k-medoid

(130)

Melhora a eficiˆencia dos algoritmos de agrupamento baseados no k-medoid

Utilizando MAM para selecionar um sub-conjunto de objetos relevantes

(131)

Algoritmo PAM-SLIM

Estrat´egia:

Realiza uma amostragem nos dados considerando certas caracter´ısticas dos MAM (Slim-tree)

representante para cada regi˜ao

Os centros dos n´os podem ser vistos como centros naturais das regi˜oes que eles representam

O centro de uma sub-´arvore pode ser considerado como centro de massa dos objetos armazenados nela

⇓

Apenas os objetos de um determinado n´ıvel podem ser considerados para a realiza¸c˜ao do agrupamento

(132)

Algoritmo PAM-SLIM

Estrat´egia:

Divide o espa¸co de dados hierarquicamente em regi˜oes atribuindo um representante para cada regi˜ao

que eles representam

⇓

(133)

Algoritmo PAM-SLIM

Estrat´egia:

massa dos objetos armazenados nela

⇓

(134)

Algoritmo PAM-SLIM

Estrat´egia:

⇓

(135)

Algoritmo PAM-SLIM

Estrat´egia:

⇓

(136)

Estrat´egia:

⇓

(137)

Algoritmo PAM-SLIM

Estrat´egia:

Uma Slim-tree representa a divis˜ao do espa¸co de dados com uma granularidade que cresce da raiz para as folhas

Qual o n´ıvel da árvore possui informa¸cões sobre a distribui¸cão dos dados suficientes para gerar um agrupamento mais rápido e com qualidade razoável?

(138)

Estrat´egia:

Uma Slim-tree representa a divis˜ao do espa¸co de dados com uma granularidade que cresce da raiz para as folhas

Quest˜ao:

Qual o n´ıvel da árvore possui informa¸cões sobre a distribui¸cão dos dados suficientes para gerar um agrupamento mais rápido e com qualidade razoável?

(139)

s1 s1 s1 s1 s1 s1 s1 s1 s2 s2 s2 s2 s2 s2 s7 s7 s7 s7 s7 s7 s5 s5 s5 s5 s6 s6 s6 s6 s6 s6 s3 s3 s3 s3 s10 s10 s10 s10 s12 s12 s13 s13 s8 s8 s8 s8 s8 s8 s9 s9 s9 s9 s11 s11 s11 s11 s4 s4 ss1515 ss1414 s14 s14 nó raiz nó raiz s7 s7 s5 s5 s6 s6 s12 s12 s13 s13 s4 s4 s15 s15 nós índice nós índice nós folha nós folha

(140)

⇐

(141)

⇐

(142)

⇐

(143)

Algoritmo PAM-SLIM

Algoritmo:

Escolha dos parâmetros para a constru¸cão da árvore

Tamanho de p´agina

Pol´ıtica de escolha de sub-´arvore (ChooseSubtree)

Constru¸c˜ao da ´arvore

Inicializa¸c˜ao

Sele¸c˜ao do n´ıvel da ´arvore

Atribui¸c˜ao dos objetos do n´ıvel selecionado ao conjunto de objetos que ser˜ao utilizados no processo de agrupamento

Agrupamento

Aplica¸cão do PAM sobre a amostra obtida no passo anterior Atribui¸cão de cada objeto do conjunto de dados todo aos medóides selecionados pelo PAM

(144)

Algoritmo PAM-SLIM

Algoritmo:

Pr´e-processamento

Tamanho de p´agina

Agrupamento

(145)

Algoritmo PAM-SLIM

Algoritmo:

Pr´e-processamento

Tamanho de p´agina

Inicializa¸c˜ao

(146)

Algoritmo:

Pr´e-processamento

Tamanho de p´agina

Inicializa¸c˜ao

Agrupamento

(147)

Resultados alcan¸cados

Algoritmos considerados

PAM, CLARA, CLARANS, PAM-SLIM-MD e PAM-SLIM-MO Medidas utilizadas

Qualidade

Distˆancia m´edia do agrupamento resultante

Eficiˆencia computacional

Número de cálculos de distância

Conjuntos de dados considerados Oito sint´eticos e um real

(148)

Mostra dos resultados obtidos

Tempo de execu¸c˜ao do PAM, CLARANS, CLARA e PAM-SLIM (horas:minutos:segundos)

Conjunto PAM CLARANS CLARA

PAM-SLIM-de dados MD MO

Sint10 5k 00:42:48 00:01:31 00:00:01 00:00:04 00:00:02 Sint10 10k 07:49:42 00:07:18 00:00:06 00:00:10 00:00:05 Sint10 15k 21:27:41 00:23:03 00:00:20 00:00:33 00:00:15 Sint10 20k 43:44:47 00:44:10 00:00:47 00:01:14 00:00:39

(149)

Mostra dos resultados obtidos

Tempo de execu¸c˜ao do PAM, CLARANS, CLARA e PAM-SLIM (horas:minutos:segundos)

Conjunto PAM CLARANS CLARA

PAM-SLIM-de dados MD MO

Sint10 5k 00:42:48 00:01:31 00:00:01 00:00:04 00:00:02 Sint10 10k 07:49:42 00:07:18 00:00:06 00:00:10 00:00:05 Sint10 15k 21:27:41 00:23:03 00:00:20 00:00:33 00:00:15 Sint10 20k 43:44:47 00:44:10 00:00:47 00:01:14 00:00:39