• Nenhum resultado encontrado

UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´ AFICO

PROCESSAMENTO MULTIDIMENSIONAL E

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´ AFICO

Nesta se¸c˜ao, abordaremos as defini¸c˜oes formais do nosso modelo de Data Warehouse Geogr´afico, que est˜ao detalhadas em [283]. Apesar de haver na literatura de banco de dados, v´arios trabalhos formais relacionados com Data Warehouse, pouca aten¸c˜ao tem sido dada para a formaliza¸c˜ao de Data Warehouse Geogr´afico (DWG). O modelo formal apresentado a seguir, estende as defini¸c˜oes do arcabou¸co GeoDWFrame [115] para considerar a utiliza¸c˜ao de medidas espaciais. Nos trabalhos discutidos em [179, 85] e [248] uma medida espacial ´e representada pela geometria de um objeto geogr´afico ou pelo resultado da aplica¸c˜ao de uma opera¸c˜ao espacial sobre um objeto geogr´afico. Da mesma forma que uma medida convencional [163], uma medida

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´AFICO 42

espacial ou geogr´afica representa a medi¸c˜ao de um determinado fenˆomeno. Dessa forma, fica a cargo do projetista e usu´arios do DWG definir quais ser˜ao as medidas armazenadas na base de dados, ou seja, a defini¸c˜ao das medidas do DWG vai depender das necessidades de an´alise dos usu´arios.

As medidas espaciais s˜ao computadas atrav´es da aplica¸c˜ao de opera¸c˜oes espaciais como uni˜ao e intersec¸c˜ao de geometrias. Por sua vez, em [267] e [13], uma medida espacial ´e definida como sendo um conjunto de ponteiros para objetos geogr´aficos, armazenados em outra estrutura de dados. Assim, os dados geogr´aficos n˜ao est˜ao armazenados na tabela de fatos do DWG e considerando o volume de dados usualmente encontrado em uma tabela de fatos, essa t´ecnica pode tornar o processamento custoso. Alguns exemplos de medidas espaciais que podem ser armazenadas em uma tabela fato de um Data Warehouse Geogr´afico s˜ao: i) ´area plantada (representada por um pol´ıgono), ii) local de um acidente, foco de dengue ou plataforma de coleta de dados (representada por um ponto) e iii) trecho recuperado de rodovia (representado por uma linha).

Em nossa abordagem, uma medida espacial ´e qualquer objeto geogr´afico (e.g. objeto do tipo ponto, linha ou pol´ıgono) armazenado na tabela de fatos do DWG. O nosso modelo de DWG ´e baseado em dois conjuntos de tabelas: (i) tabelas dimens˜oes e tabelas fatos nas quais, cada coluna ´e associada a um determinado tipo de dados. N´os assumimos que existem dois conjuntos finitos de tipos de dados: i) os tipos b´asicos (TB), tal como inteiro, real e string ; e ii) os tipos geogr´aficos (TG), cujos elementos s˜ao pontos, linhas, pol´ıgonos, conjuntos de pontos, conjuntos de linhas e conjuntos de pol´ıgonos. Os tipos b´asicos podem ser divididos em descri¸c˜ao comum e descri¸c˜ao geogr´afica. O tipo descri¸c˜ao geogr´afica pode somente ser utilizado para descrever propriedades de um objeto geogr´afico (i.e. um objeto com uma geometria associada), como por exemplo, o nome de um estado, nome de uma rodovia, entre outros. Por sua vez, o tipo descri¸c˜ao comum ´e utilizado para representar qualquer outra propriedade de um DWG.

Assim, quando uma coluna ´e associada a um determinado tipo de dados, por exemplo consideremos o tipo inteiro∈ TB, podemos dizer que a coluna ´e do tipo inteiro ou que a coluna ´e do tipo TB. Adicionalmente, dependendo do tipo escolhido, obviamente, podemos dizer que a coluna de uma tabela do DWG ´e do tipo descri¸c˜ao comum ou descri¸c˜ao geogr´afica.

Seguindo as linhas gerais previamente definidas em [115, 113], e estendendo GeoDWFrame com medidas espaciais, a seguir, apresentamos as defini¸c˜oes formais do nosso modelo de DWG. Para exemplificar as defini¸c˜oes formais, ser˜ao utilizadas instˆancias do esquema de DWG ap- resentado na Figura 4.1. Trata-se de uma DWG para acompanhamento de precipita¸c˜oes plu- viom´etricas e ´areas de alagamentos. Ou seja, a tabela de fatos desta aplica¸c˜ao possui duas me- didas, sendo uma convencional (i.e. para armazenar os valores das precipita¸c˜oes pluviom´etricas) e outra geogr´afica (i.e. para armazenar as geometrias das ´areas alagadas). Neste exemplo, n´os consideramos que os dados sobre precipita¸c˜oes pluviom´etricas s˜ao coletados por plataformas de coleta de dados que est˜ao localizadas em determinadas cidades e dentro de bacias hidrogr´aficas.

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´AFICO 43

Figura 4.1 Esquema de DWG para Acompanhamento de Precipita¸c˜oes e Alagamentos

Conforme pode ser observado na legenda da Figura 4.1, os nomes das tabelas do esquema pos- suem um prefixo que est´a relacionado com as defini¸c˜oes originais do arcabou¸co GeoDWFrame [115, 113].

Defini¸c˜ao 1 (Descri¸c˜ao geogr´afica micro e macro). Quando o objeto geogr´afico apresenta baixa granularidade (e.g. objeto representado por um ponto) ele raramente ´e compartilhado na defini¸c˜ao de um esquema de DWG. Ent˜ao, n´os dizemos que a descri¸c˜ao geogr´afica ´e micro. Por outro lado, se a granularidade ´e maior (e.g. objetos representados por pol´ıgonos), o tipo ser´a descri¸c˜ao geogr´afica macro. Como exemplos de descri¸c˜ao geogr´afica micro, podemos citar a localiza¸c˜ao de um acidente de carro, o endere¸co de um cliente, a localiza¸c˜ao de um hospital ou ainda, a localiza¸c˜ao de uma plataforma de coleta de dados (PCD) como est´a sendo representado pela tabela pgd localizacaoPCD do esquema de DWG da Figura 4.1. Por outro lado, limites de um bairro, cidade ou estado (e.g. tabela pgd estado da Figura 4.1 ), ´areas de preserva¸c˜ao ambiental, entre outras, s˜ao consideradas instˆancias do tipo descri¸c˜ao geogr´afica macro.

Defini¸c˜ao 2 (Tabela Dimens˜ao). Uma tabela dimens˜ao ´e uma rela¸c˜ao n-´aria sobre K× S1× . . .× Sr× A1× . . . × Am× G1× . . . × Gp, onde:

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´AFICO 44

(i) n = 1 + r + m + p;

(ii) K ´e o conjunto de atributos representando a chave prim´aria da tabela dimens˜ao; (iii) cada Si, 0≤ i ≤ r ´e um conjunto de chaves estrangeiras para outras tabelas dimens˜ao; (iv) cada coluna Aj (chamada de nome de atributo ou simplesmente atributo), 0 ≤ j ≤ m, ´e um conjunto de valores de atributos do tipo TB;

(v) e cada coluna Gk(chamada de geometria), 0≤ k ≤ p, ´e um conjunto de valores de atributos geom´etricos (ou simplesmente valores de geometrias) do tipo TG.

Em nosso modelo de DWG, uma tabela dimens˜ao pode ser Geogr´afica, Convencional, ou H´ıbrida, conforme ´e indicado nas defini¸c˜oes seguintes.

Defini¸c˜ao 3 (Dimens˜ao Geogr´afica). Uma tabela dimens˜ao geogr´afica pode ser classificada como primitiva ou composta, como segue na defini¸c˜ao abaixo:

Primitiva: Uma tabela dimens˜ao primitiva possui o esquema K× . . . × G1× . . . × Gp, onde: (i) p≥ 1, i.e. existe pelo menos uma coluna com geometrias;

(ii) e n˜ao existe nenhuma chave estrangeira ou atributo.

Composta: Uma tabela dimens˜ao composta possui o esquema K×S1×. . .×Sr×A1×. . .×Am, onde:

(i) r≥ 1, i.e. existe no m´ınimo uma coluna de chaves estrangeiras. Adicionalmente, cada chave estrangeira est´a associada a uma tabela dimens˜ao primitiva;

(ii) m≥ 1, i.e. existe pelo menos um atributo; (iii) e n˜ao existe nenhuma geometria na tabela.

Na Figura 4.2, mostramos um exemplo de instˆancia do esquema de DWG para acom- panhamento de dados meteorol´ogicos, o qual foi mostrado na Figura 4.1. Al´em disso, con- forme mostrado nesta figura, as tabelas pgd estado, pgd municipio, pgd localizacao bacia e pgd localizacao pcd s˜ao primitivas, pois todas possuem uma coluna do tipo geometria (e.g. pol´ıgono e ponto). Vale salientar que, sem as tabelas primitivas, uma tabela dimens˜ao con- tendo dados geogr´aficos teria que armazenar as geometrias juntamente com as descri¸c˜oes destes objetos geogr´aficos, ficando evidente a redundˆancia e o aumento do custo no armazenamento.

Como exemplo de dimens˜ao geogr´afica composta, temos a tabela cgd localizacao tamb´em mostrada na Figura 4.2. Esta tabela ´e composta porque n˜ao cont´em uma coluna do tipo geom´etrico, por´em, ela possui duas chaves estrangeiras, nomeadas id estado e id municipio, que fazem referˆencia para duas tabelas primitivas (i.e. pgd estado e pgd municipio, respectiva- mente). Neste exemplo, temos a representa¸c˜ao dos objetos geogr´aficos mantidos no DWG com suas geometrias normalizadas.

Defini¸c˜ao 4 (Tabela Dimens˜ao Convencional). Uma tabela dimens˜ao convencional ´e formada pelo esquema K× S1× . . . × Sr× A1× . . . × Am, onde:

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´AFICO 45

Figura 4.2 Exemplo de um Esquema de DWG

chave estrangeira para tabelas primitivas;

(ii) m≥ 1 (existe pelo menos um atributo) e todos os atributos s˜ao do tipo descri¸c˜ao comum; (iii) e n˜ao existe nenhuma coluna com geometrias.

Um exemplo de dimens˜ao convencional ´e a tabela d tempo, a qual cont´em apenas dados convencionais, conforme mostra a Figura 4.2. No que se refere `as tabelas dimens˜oes h´ıbridas, que podem ser micro, macro e conjunta, estas s˜ao exemplificadas como segue. A tabela mhd bacia hidrograf ica, mostrada na Figura 4.2 ´e um exemplo de dimens˜ao h´ıbrida micro. Esta tabela possui uma chave estrangeira (id bacia) que faz referˆencia para a tabela primitiva geogr´afica pgd localizacao bacia. Em uma tabela dimens˜ao h´ıbrida micro ´e poss´ıvel armazenar dados convencionais e geogr´aficos, por´em, os dados geogr´aficos representam objetos geogr´aficos de menor granularidade (e.g. endere¸cos de clientes, endere¸cos de esta¸c˜oes de coleta de dados e endere¸cos de hospitais) Devido `a baixa granularidade dos dados geogr´aficos armazenados nes- tas tabelas, raramente outras dimens˜oes compartilham tais dados. Por sua vez, uma dimens˜ao

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´AFICO 46

h´ıbrida macro diferencia-se da micro por armazenar dados de maior granularidade, que nor- malmente s˜ao compartilhados com outras dimens˜oes (e.g. limites de pa´ıses, estados, cidades ou bairros).

Tamb´em, na Figura 4.2, um exemplo de tabela dimens˜ao h´ıbrida conjunta ´e representada pela tabela jhd P CD, que possui duas chaves estrangeiras: i) id local pcd, que relaciona esta tabela com a tabela primitiva geogr´afica pgd localizacao pcd e ii) id localizacao, que provˆe o relacionamento com a tabela dimens˜ao geogr´afica composta cgd localizacao. Uma boa raz˜ao para a utiliza¸c˜ao das especializa¸c˜oes das tabelas h´ıbridas ´e o incremento proporcionado na expressividade semˆantica do modelo de dados. Entretanto, consideramos que tal especializa¸c˜ao n˜ao seja necess´aria para determinadas aplica¸c˜oes, sendo suficiente o uso de dimens˜oes geogr´aficas h´ıbridas gen´ericas.

Defini¸c˜ao 5 (Tabela Dimens˜ao H´ıbrida). Uma tabela dimens˜ao h´ıbrida ´e formada pelo esquema K× S1× . . . × Sr× A1× . . . × Am, onde:

(i) r ≥ 1, i.e. existe no m´ınimo uma coluna de chaves estrangeiras. Tamb´em, as chaves estrangeiras s˜ao liga¸c˜oes para tabelas dimens˜oes do tipo geogr´afica primitiva e/ou geogr´afica composta;

(ii) m ≥ 1 de tal forma que exista pelo menos um atributo do tipo descri¸c˜ao comum e um atributo do tipo descri¸c˜ao geogr´afica;

(iii) e n˜ao existe nenhuma coluna com geometrias.

Adicionalmente, uma tabela dimens˜ao h´ıbrida pode ser micro, macro ou conjunto, conforme segue a defini¸c˜ao:

micro: os atributos do tipo descri¸c˜ao geogr´afica s˜ao do tipo micro, ou seja, representam objetos de menor granularidade;

macro: os atributos do tipo descri¸c˜ao geogr´afica s˜ao do tipo macro, ou seja, representam objetos de maior granularidade;

conjunta: os atributos podem ser tanto micro quanto macro.

Defini¸c˜ao 6 (Tabela Fato). Uma tabela fato ´e uma rela¸c˜ao n-´aria sobre K× A1× . . . × Am× M1× . . . Mr× MG1× . . . × MGq, onde:

(i) K ´e o conjunto de atributos representando a chave prim´aria da tabela, formado por S1× S2× . . . × Sp, onde cada Si, 1≤ i ≤ p ´e uma chave estrangeira para uma tabela dimens˜ao; (ii) n = p + m + r + q;

(iii) cada atributo Aj , 0≤ j ≤ m, ´e um conjunto de valores de atributos do tipo TB; (iv) cada coluna Mk, 0≤ k ≤ r ´e um conjunto de medidas do tipo TB;

(v) e cada coluna M Gl, 0≤ l ≤ p, ´e um conjunto de medidas do tipo TG.

Como exemplo de tabela fato, temos na Figura 4.2, a tabela f acompanha precipitacao, a qual possui quatro chaves estrangeiras (i.e. id tempo, id localizacao, id pcd e id bacia) e duas

4.2 UM MODELO DE DADOS FORMAL PARA DATA WAREHOUSE GEOGR ´AFICO 47

Figura 4.3 Exemplos Adicionais para as Defini¸c˜oes Formais

medidas: i) precipitacao - medida convencional que representa as medi¸c˜oes das precipita¸c˜oes pluviom´etricas colhidas pelas plataformas de coleta de dados e ii) area alagamento - medida geogr´afica que armazena as geometrias de ´areas alagadas pelo excesso de precipita¸c˜oes plu- viom´etricas. Dessa forma, no momento da defini¸c˜ao dos cubos de dados, as fun¸c˜oes de agrega¸c˜ao convencionais, normalmente presentes em ambientes de DW tradicional, s˜ao aplicadas normal- mente sobre a medida precipitacao. Entretanto, como diferencial, temos fun¸c˜oes de agrega¸c˜ao espacial sendo aplicadas sobre a medida area alagamento. Uma lista das fun¸c˜oes de agrega¸c˜ao propostas nesta tese ´e apresentada na se¸c˜ao seguinte.

Obviamente, dependendo de uma decis˜ao de projeto, um DWG pode ser modelado de outras formas, com esquemas diferentes do apresentado na Figura 4.1. Por exemplo, podemos definir esquemas contendo tabelas de fato sem nenhuma medida e tamb´em com dimens˜oes degeneradas [163].

No mesmo contexto da aplica¸c˜ao na qual est´a inserido o DWG discutido nesta se¸c˜ao e ap- resentado na Figura 4.2, definimos outras tabelas de fatos para representar as diferentes possi- bilidades de modelagem e an´alise dos dados. A tabela de fatos f acompanha precipitacao2, exibida na Figura 4.3-(A) ´e uma alternativa de modelagem para a tabela de fatos f acompanha precipitacao, previamente exibida na Figura 4.2. A principal diferen¸ca ´e que,