• Nenhum resultado encontrado

Especificando Opera¸c˜oes de Detec¸c˜ao de Agrupamentos de Dados em SQL

pamentos de Dados em SQL

Para a parametriza¸c˜ao do processo de detec¸c˜ao de agrupamentos de dados foi definida a seguinte constru¸c˜ao sint´atica:

<especifica¸c~ao_agrupamento>::= SET CLUSTERING METHOD ‘=’ <nome_m´etodo>, METRIC ‘=’ <nome_m´etrica>, [K ‘=’ <valor_inteiro>] ON <nome_tabela>‘.’<nome_atributo> <nome_m´etodo>::= <identificador>

Nessa constru¸c˜ao, os parˆametros METHOD ‘=’ <nome_m´etodo> e METRIC ‘=’ <nome_m´etrica> s˜ao obrigat´orios para qualquer tipo de processo de agrupamento, en- quanto o parˆametro K ‘=’ <valor_inteiro> ´e obrigat´orio para os processos de detec¸c˜ao de agrupamentos baseados em m´etodos de particionamento (como os m´etodos PAM, CLARA, CLARANSe PAM-SLIM). Para se referir aos resultados de processos de detec¸c˜ao de agrupa- mentos de dados, sobre um determinado atributo complexo, em comandos SELECT foram definidas as seguintes constru¸c˜oes sint´aticas:

CLUSTERING ‘(’<nome_tabela>‘.’<nome_atributo>‘)’ CLUSTER ‘(’<nome_tabela>‘.’<nome_atributo>‘)’

Essas constru¸c˜oes s˜ao utilizadas como referˆencias a tabelas na cl´ausula FROM de co- mandos SELECT e correspondem `a especifica¸c˜ao de table functions [Eisenberg et al., 2003]. A primeira constru¸c˜ao foi definida para permitir o acesso `as informa¸c˜oes de cada agru- pamento resultante. J´a a segunda, foi definida para permitir o acesso `as informa¸c˜oes relativas a associa¸c˜ao de cada objeto do conjunto de dados ao agrupamento a que ele pertence.

A.5

Outras Constru¸c˜oes

As caracter´ısticas extra´ıdas dos dados pertencentes ao dom´ınio MONOLITHIC podem ser utilizadas em comandos SQL, em qualquer constru¸c˜ao sint´atica em que seja poss´ıvel fazer uma referˆencia a um atributo, por meio da utiliza¸c˜ao da seguinte sintaxe:

<refer^encia_atributo>::= [[<nome_tabela>‘.’]<nome_atributo>‘.’] <nome_extrator>‘.’<alias_par^ametro>

A distˆancia entre o objeto de consulta e o objeto da resposta da consulta pode ser retornada em comandos que envolvam sele¸c˜oes por similaridade, desde que exista apenas um predicado por similaridade no comando. Esse valor pode ser requisitado em comandos SQL, sempre que for poss´ıvel fazer uma referˆencia a uma atributo, utilizando a seguinte sintaxe:

<refer^encia_atributo>::= <nome_extrator>()

Para as sele¸c˜oes por similaridade que envolvam mais de um objeto de consulta, essa constru¸c˜ao retorna a distˆancia agregada utilizada para selecionar cada tupla, i.e.: a soma das distˆancias do objeto ao conjunto de objetos de consulta para o SUM; a raiz quadrada da soma dos quadrados das distˆancias para o ALL; e a menor das maiores distˆancias obtidas entre o objeto e os objetos de consulta para o MAX. Para as jun¸c˜oes por similaridade, essa constru¸c˜ao retorna a distˆancia entre cada objeto do par retornado.

Tamb´em existem constru¸c˜oes definidas para permitir: listar extratores, m´etricas e ´ındices dispon´ıveis para dados complexos; e descrever tabelas, m´etricas e ´ındices que sejam definidos para ou armazem dados complexos. A sintaxe de cada uma dessas constru¸c˜oes ´e apresentada abaixo:

<especifica¸c~ao_listagem>::= SHOW {EXTRACTORS | METRICS | COMPLEX INDEXES} <especifica¸c~ao_descri¸c~ao>::= DESCRIBE {<nome_tabela> |

METRIC <nome_m´etrica> | COMPLEX INDEX <nome_´ındice>}

B

Conjuntos de Dados

Este apˆendice descreve os conjuntos de dados reais utilizados nos comandos SQL empre- gados na ilustra¸c˜ao das constru¸c˜oes sint´aticas apresentadas nesta tese.

B.1

CidadeBR

O conjunto de dados CidadeBR cont´em 5.507 tuplas contendo informa¸c˜oes a respeito das posi¸c˜oes geogr´aficas das cidades brasileiras [IBGE, 2006]. A Tabela B.1 apresenta os atri- butos que comp˜oem cada tupla desse conjunto. A medida de similaridade empregada na realiza¸c˜ao de consultas sobre esse conjunto de dados ´e a distˆancia entre as cidades, calcu- lada a partir da aplica¸c˜ao da fun¸c˜ao de distˆancia Euclidiana (L2) sobre suas coordenadas.

Atributo Tipo Descri¸c˜ao

Nome Cadeia de caracteres Nome da cidade-UF

Lat Num´erico Latitude

Longit Num´erico Longitude

Coordenada Complexo Posi¸c˜ao geogr´afica da cidade

Tabela B.1: Descri¸c˜ao dos atributos do conjunto de dados CidadeBR.

B.2

Autos

O conjunto de dados Autos ´e formado pelo resumo dos testes realizados pela revista Qua- tro Rodas, entre maio de 2001 e junho de 2005, com 140 carros de v´arios fabricantes

[Revista Quatro Rodas, 2005]. Cada tupla desse conjunto possui o resultado da avalia¸c˜ao de v´arios ´ıtens. A Tabela B.2 apresenta a lista dos ´ıtens avaliados. Consultas por simila- ridade podem ser empregadas para explorar esse conjunto de dados em diversas quest˜oes como, por exemplo, a rela¸c˜ao custo/benef´ıcio, considerando itens como potˆencia, volume do porta malas e consumo urbano.

Atributo Tipo Descri¸c˜ao

Nome Cadeia de caracteres Nome do modelo do carro

Fabricante Cadeia de caracteres Nome do fabricante do carro

Cilindros Num´erico N´umero de cilindros

Pot^encia Num´erico Potˆencia em cavalos

Acelera¸c~ao Num´erico Acelera¸c˜ao de 0 a 100 km/h em segundos

Retomada Num´erico Retomada de 40 a 80 km/h em segundos

Velocmax Num´erico Velocidade m´axima em km/h

Frenagem Num´erico Frenagem de 80 a 0 km/h em metros

Ruidointerno Num´erico Ru´ıdo interno em dB

Portamalas Num´erico Volume do porta malas em litros

Consumourb Num´erico Consumo urbano em km/l

Carro Complexo Identifica um autom´ovel

Tabela B.2: Descri¸c˜ao dos atributos do conjunto de dados Autos.

B.3

Exame

O conjunto de dados Exame ´e formado por 800 imagens de exames de tomografia compu- tadorizada (CT) divididas em quatro classes com 200 imagens cada: crˆanio axial, crˆanio coronal, crˆanio sagital e espinha sagital. Essas imagens podem ser consultadas de v´arias maneiras. Elas podem ser comparadas, por exemplo, pela similaridade da distribui¸c˜ao de suas cores ou de suas texturas. Os atributos desse conjunto s˜ao apresentados na Tabela B.3.

Atributo Tipo Descri¸c˜ao

Idexame Num´erico Identificador da imagem

Imagem Complexo Imagem do exame

Corte Cadeia de caracteres Classe da imagem

Tabela B.3: Descri¸c˜ao dos atributos do conjunto de dados Exame.

B.4

BRPolitico e OrientacaoPartido

O conjunto de dados BRPolitico ´e composto pelos votos de deputados federais brasileiros em quest˜oes discutidas na Cˆamara dos Deputados. Cada tupla desse conjunto corresponde

aos votos de um dos 509 deputados que estavam presentes em sete vota¸c˜oes, sendo que os atributos que representam cada uma das quest˜oes votadas possuem valor igual a 10 (favor´avel), 1 (obstru¸c˜ao), zero (absten¸c˜ao), -1 (ausente) ou -10 (contr´ario). J´a o conjunto de dados OrientacaoPartido ´e composto por 15 tuplas que representam o voto que cada partido pol´ıtico requisitou de seus membros em cada quest˜ao votada. Esses dois conjuntos de dados foram obtidos a partir dos resultados de vota¸c˜oes realizadas por deputados federais brasileiros entre fevereiro e mar¸co de 2005 e dispon´ıveis no web-site da Cˆamara dos Deputados [Cˆamara dos Deputados, 2006]. Para esses conjuntos de dados, a medida de similaridade entre os sete atributos de vota¸c˜ao pode ser obtida por meio de uma m´etrica que empregue a fun¸c˜ao de distˆancia L1 (Manhattan). Os atributos que comp˜oem cada

um desses conjuntos s˜ao apresentados nas Tabelas B.4 e B.5.

Atributo Tipo Descri¸c˜ao

Deputado Cadeia de caracteres Nome do deputado Partido Cadeia de caracteres Nome do partido pol´ıtico

V1 Num´erico Vota¸c˜ao 1 V2 Num´erico Vota¸c˜ao 2 V3 Num´erico Vota¸c˜ao 3 V4 Num´erico Vota¸c˜ao 4 V5 Num´erico Vota¸c˜ao 5 V6 Num´erico Vota¸c˜ao 6 V7 Num´erico Vota¸c˜ao 7

Votacoes Complexo V´arias vota¸c˜oes

Tabela B.4: Descri¸c˜ao dos atributos do conjunto de dados BRPolitico.

Atributo Tipo Descri¸c˜ao

Partido Cadeia de caracteres Nome do partido pol´ıtico

V1 Num´erico Orienta¸c˜ao para a vota¸c˜ao 1

V2 Num´erico Orienta¸c˜ao para a vota¸c˜ao 2

V3 Num´erico Orienta¸c˜ao para a vota¸c˜ao 3

V4 Num´erico Orienta¸c˜ao para a vota¸c˜ao 4

V5 Num´erico Orienta¸c˜ao para a vota¸c˜ao 5

V6 Num´erico Orienta¸c˜ao para a vota¸c˜ao 6

V7 Num´erico Orienta¸c˜ao para a vota¸c˜ao 7

Votacoes Complexo V´arias vota¸c˜oes

Tabela B.5: Descri¸c˜ao dos atributos do conjunto de dados OrientacaoPartido.

B.5

Musica

O conjunto de dados Musica corresponde a uma cole¸c˜ao de 196 arquivos MP3 de diversos gˆeneros musicais divididos em seis classes: (19) “PopRockBrasileiro”, (52) “MPB”, (50)

“PianoClassico”, (65) “NewAge” e (10) “PunkRock”. Os atributos desse conjunto de da- dos s˜ao descritos na Tabela B.6. As medidas de similaridade utilizadas para consultar esse conjunto de dados s˜ao baseadas nos dois tipos de caracter´ısticas de textura do som dispon´ıveis no SIREN.

Atributo Tipo Descri¸c˜ao

Id Num´erico Identificador do arquivo Mp3

Titulo Cadeia de caracteres T´ıtulo da m´usica Genero Cadeia de caracteres Gˆenero musical

Mp3 Complexo Arquivo Mp3

C

Dicion´ario de Dados do SIREN

Este apˆendice descreve a estrutura do dicion´ario de dados do SIREN. A Se¸c˜ao C.1 apre- senta o diagrama Entidade-Relacionamento do dicion´ario de dados e a Se¸c˜ao C.2 apresenta o Modelo Relacional correspondente.

C.1

Diagrama Entidade-Relacionamento

ExtractorName ExtractorCode ParameterName IsIndexable Is composed by 1 N

Extractors Private Data - EPD

ParameterType ExtractorType

Figura C.1: Diagrama Entidade-Relacionamento dos extratores de caracter´ısticas dispo- n´ıveis no SIREN.

O dicion´ario de dados do SIREN armazena informa¸c˜oes referentes aos extratores de caracter´ısticas dispon´ıveis (Extractors Private Data – EPD) e a defini¸c˜ao da estrutura de como os dados complexos s˜ao manipulados pelas aplica¸c˜oes (Complex Data Definition – CDD). A Figura C.1 apresenta o modelo que representa a estrutura de como as informa¸c˜oes

relacionadas aos extratores de caracter´ısticas s˜ao armazenadas pelo SIREN. Esse modelo de dados informa que um extrator de caracter´ısticas pode disponibilizar n parˆametros, index´aveis ou n˜ao. ParameterOrder MetricName ParameterAlias Weight Is composed by 1 N IsDefault IndexName

Complex Data Definition - CDD

LpP Complex Attrib Metric TableName ComplexAttribName M N IndexFile MetricType N MetricCode ParameterInstance Metric Instance M ParameterType ParameterName ExtractorCode P ComplexAttribType

Figura C.2: Diagrama Entidade-Relacionamento da defini¸c˜ao dos dados complexos no SIREN.

J´a a Figura C.2 apresenta o diagrama do Modelo Entidade-Relacionamento que repre- senta a defini¸c˜ao dos dados complexos no SIREN. Nesse modelo, a entidade MetricStruct representa as m´etricas definidas pelos usu´arios, a entidade ParameterStruct representa os parˆametros dispon´ıveis em uma m´etrica e a entidade ComplexAttribute representa os atributos complexos (PARTICULATE, AUDIO ou STILLIMAGE) definidos pelos usu´arios. O relacionamento ComplexAttribMetric representa a associa¸c˜ao de uma m´etrica a um atributo complexo e o relacionamento MetricInstance representa cada instˆancia de uma m´etrica.