Elementos básicos do modelo multidimensional

1 INTRODUÇÃO

2.5 Modelagem multidimensional

2.5.3 Elementos básicos do modelo multidimensional

A visão multidimensional representa como as informações são analisadas sob a forma de negócio, ou seja, o cruzamento das informações gerenciais. A visão multidimensional é representada através do cubo, que mostra visões sob vários aspectos da informação.

Dados em modelos ER em ambiente

operacional Dados em modelos multidimensionais em ambiente de data warehouse

Dados detalhados Dados resumidos ou refinados

Vida curta, de modificação rápida Vida longa, estático

Requerem acesso em nível de registro Os dados são agregados em conjuntos, semelhante ao banco de dados relacional

Transações padrão repetitivas e padrões

de acesso Consultas ad hoc com alguns relatórios específicos

Atualização em tempo real Atualização periódica com cargas maciças Quadro 2 - Diferenças entre dados operacionais e do data warehouse.

Fonte: Singh, 2001, p. 274.

A idéia fundamental da modelagem multidimensional é que praticamente quase toda espécie de dados de negócios pode ser representada como um tipo de cubo de dados, em que as células do cubo contêm valores de medida e a extremidade do cubo define a dimensão natural dos dados. Mais que três dimensões são definidas em projetos, portanto, deve-se nomear o cubo como hipercubo, embora os termos cubo e cubo de dados sejam mais comumente usados (Kimball, 1998, p. 165).

A representação dos elementos da modelagem multidimensional faz-se através do cubo pela dificuldade em se visualizar um hipercubo, e se aplica a este tipo de modelagem (Machado, 2000). A figura 3 representa um fato Vendas por meio de um cubo, com três dimensões: Localização, Produto e Tempo. As duas primeiras dimensões possuem dois níveis de hierarquia.

Pode-se fazer a correspondência de cada eixo no espaço multidimensional com uma coluna de uma tabela relacional, em que cada ponto representa um valor que corresponde à intersecção destas colunas. Quaisquer dados podem ser considerados multidimensionais, mas normalmente a referência é feita a dados representando objetos ou eventos que podem ser descritos e, portanto, classificados por dois ou mais de seus atributos (Oliveira, 1998).

Todo modelo multidimensional é composto de uma tabela com uma chave composta de várias partes, chamada Tabela Fatos e um grupo de tabelas menores, chamadas Tabelas Dimensão. Cada tabela de dimensão possui uma chave primária (Pk - primary key) de parte única, que corresponde exatamente a uma das partes da chave da tabela de fatos (Kimball, 1998).

Figura 3 - Representação do modelo multidimensional através de um cubo. Fonte: Machado, 2000, p. 66.

A modelagem multidimensional apresenta os seguintes elementos básicos (Machado, 2000; Singh, 2001; Kimball, 2002):

• Fatos: coleção de itens de dados, que se compõem de dados de medida e de contexto, normalmente representados por dados numéricos e que são o foco da investigação do suporte à decisão, sendo considerada a principal tabela de um modelo multidimensional;

• Dimensões: elementos que participam de um fato, normalmente não possuem atributos numéricos e constituem-se de agrupamentos lógicos de atributos com uma chave de relacionamento comum;

• Medidas: atributos numéricos que representam um fato, normalmente qualificadores métricos conceituais.

2.5.3.1 Fatos

O modelo multidimensional discerne entre fatos e atributos. Um fato é normalmente alguma coisa que não é conhecido antecipadamente. Muitos fatos na área de negócios são numéricos, embora alguns poucos podem ser valores textuais. Muitos campos de dados podem ser inicialmente definidos como atributos, mas na

verdade, em uma análise mais aprofundada, podem ser definidos como fatos (Kimball, 1998, p.165).

Uma tabela de fatos “é a principal tabela de um modelo multidimensional em que as medições numéricas de desempenho da empresa estão armazenadas” (Kimball, 2002, p.21).

A multidimensionalidade está baseada na dualidade fatos-dimensões, ou seja, fatos são analisados em referência a dados nas dimensões. Um fato representa um assunto de análise, enquanto suas dimensões mostram as diferentes visões que se pode usar para estudá-los (Abelló et al., 2001c).

A tabela de fatos possui como característica a esparsidade, ou seja, se não existe um cruzamento para alguns valores das dimensões, a tabela de fatos não armazena zeros. Quando os dados possuírem a característica de esparsidade em um modelo, é muito importante que a implementação OLAP não reserve espaço de armazenamento para combinações que não são utilizadas (Pilot, 2003).

A dispersão não é uma entidade e não é representada por tabelas. A dispersão é manipulada de forma implícita. Alguns fatos podem existir apenas para uma pequena fração do mercado ou período. O esquema estrela gerencia a dispersão simplesmente não gravando registros onde estas combinações são inválidas (Singh, 2001).

As tabelas de fatos “contêm múltiplas colunas de fatos, relacionadas por uma chave multidimensional comum, que geralmente consiste de atributos de mais de uma dimensão” (Singh, 2001, p.88).

A “tabela de fatos contém registros tirados dos dados operacionais, com uma chave primária composta de chaves externas para as tabelas multidimensionais”, considerando que podem conter dados consolidados (Oliveira, 1998, p. 36).

Fatos representam elementos de informação atômicos em um banco de dados multidimensional. Um fato consiste em quantificar valores armazenados em medidas e um contexto qualificativo que é determinado por níveis de dimensão. Cada nível de dimensão contém um conjunto de instâncias ou elementos. Um esquema Fatos representa o contexto multidimensional para um conjunto de fatos que partilham os mesmos níveis multidimensionais terminais (Hüsemann et al., 2000).

Um fato é definido como um item de interesse do negócio, que é descrito por um grupo de atributos chamados medidas ou atributos de fato - atômicos ou derivados - que estão contidos em células ou pontos em um cubo de dados (Trujillo et al., 2001).

2.5.3.2 Dimensões

Uma dimensão é uma coleção de textos como atributos que são altamente relacionados uns aos outros. Os termos dimensão e fatos tiveram sua origem em um projeto de pesquisa realizado na década de 1960 pela General Mills e Dartmouth University. Estes termos foram utilizados uma década mais tarde, de modo consistente para descrever dados corporativos pela AC Nielsen e IRI (Kimball, 2002, p.20).

Uma dimensão pode ser assim definida (Kimball, 2002, p.28).

Toda dimensão é equivalente, e todas as dimensões são pontos de entrada simetricamente iguais para a tabela de fatos, e os dados mais granulares ou atômicos possuem a maior multidimensionalidade, considerando que os dados atômicos que não foram agregados são os mais expressivos e que as dimensões estão sempre acompanhando uma tabela de fatos, contendo descritores textuais.

A mais importante característica do paradigma da modelagem multidimensional é a divisão dos dados em fatos (composto de medidas) e dimensões, para fornecer dados em um nível satisfatório de granularidade (Luján-Mora e Trujillo, 2003).

Estas tabelas de dimensão representam relações hierárquicas em uma empresa ou negócio e, normalmente, não apresentam muita normalização. Na maioria das vezes as dimensões representam hierarquias, que são armazenadas em uma única tabela de dimensão, e não em várias tabelas normalizadas. Isso faz com que o desempenho das consultas aumente, considerando que não são necessárias junções para a obtenção dos dados. Normalmente apresentam muitos atributos.

As dimensões apresentam o contexto para analisar os fatos (Trujillo et al., 2001): • Dimensões membros: uma dimensão membro é um nome distinto ou

identificador usado para determinar uma posição dos itens de dados, como por exemplo, todos os meses e anos que compõem uma dimensão tempo e todas as cidades, estados e regiões que compõem uma dimensão localização. Uma dimensão contém muitas dimensões membros.

• Dimensões hierárquicas: pode-se organizar os membros de uma dimensão em uma ou mais hierarquias. Cada hierarquia pode também ter vários níveis de hierarquia. Cada membro de uma dimensão está alocado em

uma estrutura hierárquica. A hierarquia define o relacionamento entre atributos da dimensão que identificam os diferentes níveis existentes. Hierarquias de dimensão são classificadas em dois tipos básicos: hierarquia simples que consiste em um caminho de agregação linear dentro de uma dimensão, como por exemplo: dia mês ano, em uma dimensão Tempo; e a hierarquia múltipla que contém pelo menos dois caminhos de agregação em uma dimensão (Hüsemann et al, 2000).

Uma dimensão especial e que deve receber atenção especial é a dimensão Tempo. Esta dimensão pode apresentar variação de hierarquias, como um ano que abrange meses, que são compostos de semanas e dias, por exemplo. Além da consideração de controle de anos fiscais ou ainda períodos de meses.

As medidas de tempo podem ser armazenadas na periodicidade original e exibidas em qualquer periodicidade desejada, incluindo diária, semanal, mensal, trimestral, anual, bimestral, etc. (Pilot, 2003; Mendelzon e Vaisman, 2003).

Em um modelo relacional de dados, para propósitos de normalização, não são fundidos dados de ano, mês, semana ou dia em uma única tabela. Muitas vezes tais informações são resumidamente armazenadas em uma única data de referência. Em um modelo de dados multidimensional, estas referências são fundidas como uma única tabela, denominada Dimensão Tempo.

2.5.3.3 Medidas

Uma medida é um atributo numérico de um fato, representando o desempenho ou comportamento do negócio relativo àquela dimensão. As medidas são determinadas pela combinação de membros das dimensões e são localizadas nos fatos. As medidas são definidas como grupos de dimensões que derivam da granularidade escolhida para representar os fatos (Trujillo et al., 2001).

2.5.3.4 Relacionamentos

Um relacionamento é representado com linhas que interligam entidades. O relacionamento entre duas entidades pode ser definido em termos de cardinalidade, que pode ser: um-para-um (1:1), um-para-muitos (1:n) e muitos-para-muitos (n:n). Quando a cardinalidade de uma entidade é 1:n, freqüentemente o relacionamento

representa dependência de uma para outra entidade. Neste caso, a chave primária da entidade pai é herdada na entidade dependente como parte da sua chave primária.

Uma tabela de fatos, por sua chave primária ser composta de duas ou mais chaves estrangeiras (Fks - Foreign Keys), pode expressar um relacionamento muitos-para-muitos (Kimball, 1998).

A agregação é o relacionamento “parte de“. É o processo pelo qual os dados de nível baixo de detalhe são previamente sumarizados e incluídos em tabelas que armazenam informações sumarizadas. Estas tabelas permitem que as aplicações antecipem consultas do usuário e eliminem a repetição de cálculos.

2.5.3.5 Atributos

Atributos descrevem as características das propriedades de uma entidade. Os atributos de uma tabela de fatos usualmente são numéricos e aditivos, enquanto aqueles das tabelas de Dimensão freqüentemente contêm informação textual descritiva. Os atributos de uma dimensão são usados para identificar quais fatos serão analisados.

Os atributos da dimensão são a fonte da maioria das restrições interessantes nas consultas do data warehouse e são sempre a fonte das linhas de cabeçalho de uma saída no SQL (Structured Query Language - linguagem de consulta estruturada) (Kimball, 1998, p.145).

“As tabelas multidimensionais contêm múltiplas colunas de atributos (normalmente baseadas em caracteres), relativas ao mesmo atributo atômico” (Singh, 2001, p. 89).

Se o campo é uma medida que adota vários valores e participa dos cálculos, torna-se um fato. Se é uma descrição com valor discreto que é relativamente constante e participa de restrições, é um atributo multidimensional. Resumidamente, a tabela de fatos formada por medidas numéricas é associada a um conjunto de tabelas de dimensão preenchidas com atributos descritivos.

Os atributos, normalmente chamados atributos de dimensão, fornecem as particularidades que caracterizam dimensões (Trujillo et al., 2001).

No documento Metodologia para implantação de modelos multidimensionais em banco de dados orientado a objetos (páginas 40-47)