O grupo de investigadores do projecto Arktos prossegue os experimentos no domínio dos formalismos de modelação dos processos operacionais como cenários de
workflows, levados a cabo no âmbito do projecto europeu DWQ.
No domínio do processo de ETC, os investigadores desenvolvem um framework de modelação nos níveis conceptual, lógico e físico e que inclui uma arquitectura de metamodelo genérica, extensível e manuseável, os mapeamentos entre o modelo conceptual e o modelo lógico, um conjunto de algoritmos e a implementação de
Nível das fontes de dados Nível intermédio SIRIUS Nível do Data Warehouse wrapper
Mapper do esquema de armazenamento
Repositório de execução SGBD DW global Repositório de metadados
...
wrapper Fonte de dados 1 monitor Área intermédia de armazenamento wrapper Fonte de dados 2 monitor wrapper Fonte de dados n monitor Coordenador Gestor de chavesGestor de objecto Componente de execução (GRDW) Interface de utilizador Gestor de acesso ao repositório de metadados Componente de modelação metamodelo
protótipos, com o objectivo de facilitar, gerir e optimizar o desenho e execução do processo de ETC, ao longo do ciclo de vida de um SDW (Simitsis 2003 e 2005, Vassiliadis et al. 2003 e 2005a).
A arquitectura de metamodelo assenta numa estrutura de três camadas: (1) a camada superior de metamodelo que disponibiliza o modelo genérico que descreve todos os casos possíveis de aspectos de cenários de ETC; (2) a camada extensível e manuseável de templates, um subconjunto da camada de metamodelo que oferece construções específicas, isto é, instâncias especializadas dos casos genéricos, para modelar os aspectos mais frequentes de cenários de ETC e que possibilita ao designer introduzir, através de um mecanismo de especialização, os aspectos modelados repetidamente nos casos concretos dos seus projectos de SDW, tornandoo metamodelo reutilizável; (3) a camada inferior de esquema que descreve o domínio de cenários específicos de ETC e cujas entidades são instâncias das duas camadas atrás referidas (Vassiliadis et al 2002a: 19-20, 2003: 537-40 e 2005a: 509-10).
Começa-se por sumariar os principais contributos nos níveis de desenho lógico e físico, para de seguida se tratar o nível conceptual.
Nos níveis lógico e físico, o primeiro esforço de pesquisa resulta no protótipo de ferramenta Arktos que oferece primitivas explícitas para modelar e executar as tarefas de limpeza e transformação numa dada sequência e alguns requisitos de qualidade de cenários práticos de ETC, disponibilizando três possibilidades para a descrição lógica dos aspectos a modelar: (1) um grafo suportado pelas primitivas de modelação ou uma de duas linguagens declarativas, (2) a XADL, uma variante da linguagem XML baseada no standard Activity Definition Language, que permite uma descrição mais verbal e de leitura mais fácil, e (3) a SADL (Simple Activity Definition Language), uma linguagem com uma sintaxe mais compacta que lembra a SQL e, por isso, mais adequada a designers experientes (Vassiliadis et al 2000a e 2001a).
É no âmbito da implementação do protótipo de ferramenta Arktos II que se introduzem melhorias significativas no framework: (1) o modelo lógico é reduzido a um grafo que permite descrever todos os casos de cenários de ETC nos seus aspectos estáticos e dinâmicos, dadas as características da arquitectura do metamodelo lógico; (2) a inclusão das semânticas do workflow e das operações de inserir, eliminar e alterar; (3) a utilização dos recursos de uma linguagem declarativa de programação de bases de dados (LDL++) para permitir descrever também as semânticas do workflow (4) a introdução de um algoritmo para suportar o zooming in/out nos vários níveis de detalhe
do grafo, de modo a lidar com a complexidade do nível de detalhe dos atributos; (5) a inclusão de métricas de qualidade; (6) o armazenamento dos cenários de ETC no repositório de metadados Arktos II, implementado num SGBD que facilita o processamento de consultas e permite extensões da ferramenta e integração com sistemas exteriores (Vassiliadis et al 2002b, 2003, 2005a e 2005b).
Por seu lado, o objectivo da modelação no nível conceptual é constituir documentação para apoiar as fases subsequentes de desenho, remetendo-se os outros aspectos do processo de ETC e as soluções técnicas da sua implementação para o nível lógico de desenho (Vassiliadis et al. 2002a: 14-5). O mapeamento entre o modelo conceptual e o modelo lógico é feito de modo semi-automático, cabendo a um algoritmo suportar a ordem de execução dos aspectos modelados (Simitsis 2005).
O nível conceptual de modelação é localizado na fase inicial do desenho de um SDW e diz respeito a duas tarefas que o designer executa em paralelo: (1) a recolha dos requisitos definidos pelos utilizadores; (2) a análise da estrutura e do conteúdo das fontes de dados e seus mapeamentos intencionais para o modelo comum do DW global (Vassiliadis et al. 2002a). Trata-se de representar, conceptualmente, o mapeamento dos atributos das fontes de dados para os correspondentes atributos das tabelas de dados do DW global e as transformações que devem ocorrer.
O framework de modelação conceptual oferece uma linguagem de especificação assente num conjunto de notações gráficas que permitem tratar os atributos como elementos de modelação de primeira classe. A decisão por notações próprias é a solução encontrada pelos investigadores para modelar neste nível de detalhe, com o argumento da inadequação da UML para modelar entidades de baixa granularidade como é o atributo (ver Apêndice
8.
1.1).Dadas as características da arquitectura do metamodelo conceptual, o designer descreve o domínio de cenários específicos de ETC na camada de esquema do metamodelo, instanciando as classes da camada genérica de metamodelo e as sub- classes especializadas oferecidas pela camada de template, onde pode incluir os padrões mais recorrentes nas suas actividades de modelação (ver Figura
4.
6).Figura 4.6 Arquitectura do metamodelo conceptual
O framework disponibiliza ainda um método para apoiar o designer (Simitsis e Vassiliadis 2003). Nas suas actividades de modelação conceptual, o designer deve executar um conjunto de quatro passos em sequência: (1) a identificação das fontes de dados; (2) a identificação das fontes de dados candidatas e candidatas activas; (3) o mapeamento dos atributos entre as fontes de dados e o DW global; (4) a anotação do diagrama com as restrições de execução.