• Nenhum resultado encontrado

2.3 Extração de Conhecimento

2.3.2 Data Warehouse

O sistema de um DW consiste essencialmente em agregar informação proveniente de uma ou mais fontes de dados de forma a se tratar, organizar e consolidar esta mesma informação numa única estrutura de dados. Um DW é, por isso, um repositório de dados através do qual ocorre a pesquisa de valiosa informação de negócios em gran- des BDs, ou seja, constrói-se através de um processo de extração de dados a partir de diferentes aplicações, internas ou externas, realizando de seguida a estruturação da informação para ser armazenada no repositório central (DW). Neste contexto, a capacidade analítica do DW está dependente do tipo de dados disponíveis nas fontes [22,10, 26].

De realçar que os termos Data Warehouse e Data Warehousing são distintos. Se por um lado um DW é considerado um repositório “inteligente” através do qual pode derivar o processo BI, por outro o processo de Data Warehousing corresponde ao de- senvolvimento, gestão, métodos operacionais e práticas que determinam o modo como os dados são coletados, integrados, interpretados, geridos e utilizados pelos gestores que têm o poder de tomar decisões [27].

No processo de Data Warehousing, muitas vezes a informação é organizada em pequenos repositórios denominados Data Marts (Figura 2.3). Um Data Mart é um subconjunto de um DW que está projetado para um propósito específico, similar à forma como um DW pode ser personalizado para uma determinada organização. Os Data Marts servem de armazenamento de dados cumulativos a partir de outras BDs. Em termos funcionais, um Data Mart é utilizado para realçar relações complexas entre as diferentes fontes de dados. São agregadas grandes quantidades de informação que são, frequentemente, confidenciais [6].

Um DW deve ser adaptativo, ou seja, no sentido de lidar com alterações rápidas e frequentes das atividades, estratégias e ambientes de negócios, o DW deve então ser capaz de se modificar também. Por outro lado, deve ser capaz de facilitar e simplificar o manuseamento e a gestão da BD reduzindo a quantidade de pessoal responsável pela administração e manutenção da mesma. Um DW deve ter a capacidade de supor- tar simultaneamente transações pequenas (realizadas pelos utilizadores) e transações grandes (executadas pelos agentes de software) durante o processo de carregamento de dados. As principais vantagens da implementação e utilização de um DW são de: fornecer uma única fonte de dados para o negócio; oferecer informação precisa, rele- vante e oportuna para uma efetiva tomada de decisões; projetar uma solução de DW que possa ser escalável e extensível através da organização; e identificar e resolver o problema da qualidade e limpeza de dados. Os dados são extraídos de fontes variadas, diferentes, heterogéneas e distribuídas, sendo posteriormente a informação resultante usada em consultas/queries e relatórios. Esta arquitetura de armazenamento de dados baseia-se num modelo de dados multidimensional, o qual permite a análise dos dados a partir de diversas perspetivas e providencia aos gestores um elevado poder de tomada de decisão. A visualização da informação num esquema multidimensional baseia-se na dicotomia medida/dimensão e é caraterizada pela representação da informação segundo um espaço n-dimensional, isto é, com tantos eixos quantas as dimensões com interesse para análise. Um DW pode ter diferentes modelações multidimensionais dependendo do esquema de representação que é implementado: esquema em estrela, em floco de neve ou em constelação. Tradicionalmente, a multidimensionalidade é classificada se- gundo dimensões, níveis e atributos (explicado detalhadamente na secção2.3.3), dando

Base de Dados Operacional DataWarehouse

Tempo Crítico Informação histórica

Acesso a leitura/escrita Acesso a leitura

Acesso a poucos registos Acesso a grande quantidade

de cada vez de registos de cada vez

Atualização da informação Atualização periódica

em tempo real da informação

Estruturado para OLTP Estruturado para OLAP

Tabela 2.1: Base de Dados Operacional vs Data Warehouse [5].

origem ao esquema multidimensional. Este paradigma permite que se compreenda e visualize a informação a partir dos diferentes pontos de vista de análise de um determi- nado assunto. Deste modo, um DW garante o fornecimento de informação consistente, integrada, organizada e histórica, preparada para posterior análise quando submetida a um sistema de BI e utilizada para processos de tomada de decisão no seio de uma organização. Através do armazenamento de informação histórica, é possível que o DW disponibilize informação acerca da evolução organizacional ao longo de um determinado período. Considera-se importante realçar que esta informação não é modificada como acontece nos sistemas transacionais, mas sim acrescentada/aumentada [28,10, 5].

O DW disponibiliza, assim, uma visão global e detalhada da organização e sendo pretendida a sua exploração através de ferramentas específicas, surgiram vários meca- nismos de navegação e análise de desempenho. Uma das ferramentas mais conhecidas e com maior relevância para exploração de uma DW é a análise OLAP (Online Analy- tical Processing) que facilita a navegação e análise de informação através dos dados comerciais baseando-se no paradigma multidimensional já referido. O DW suporta o processamento analítico online (OLAP), os requisitos funcionais e de desempenho que diferem consideravelmente daqueles do processamento transacional online (OLTP - Online Transactional Processing), aplicação habitualmente suportada por BDs ope- racionais. Um DW tende a abranger ordens de magnitude superior às de uma BD operacional: enquanto uma BD tende a ter centenas de megabytes-gigabytes de tama- nho, um DW geralmente alberga tamanhos de gigabytes-terabytes. Para além disso, um DW é orientado ao problema, integrado, objetivo, não volátil, dependente do tempo e não normalizado. As principais diferenças entre uma BD operacional e um DW estão apresentadas na Tabela 2.1 [10, 9,24, 5].

No projeto e implementação de um DW para uma organização devem ser tidos em conta variados fatores como: custos, tempo, utilizadores, pessoal, hardware e servi- ços. Os custos encontram-se relacionados com o montante que a organização pretende gastar em hardware e que tipo de software, ferramentas e serviços do fornecedor serão necessários. O fator tempo importa no sentido de se conhecer a quantidade de tempo que demora o projeto do DW e quanto tempo a organização realmente tem. Em relação aos utilizadores é importante saber qual a utilização e os objetivos concretos dos utili- zadores finais em relação ao DW a implementar. O fator pessoal refere-se àqueles que desenvolvem e realizam a manutenção do DW. Finalmente, o hardware traduz-se nas ferramentas necessárias para a construção do DW, e os serviços considerados extra que possam vir a ser precisos ao longo do processo. Por outro lado, de forma a construir- se um modelo conceptual de um DW, é necessário analisar os requisitos de consulta,

as alterações da estrutura de dados, o tempo de resposta, a gestão dos recursos, fer- ramentas de interface, e verificação e possuir um sistema capaz de realizar cópias de segurança e recuperação de dados. O processo de desenvolvimento de um DW consome tempo e sem o auxílio das ferramentas adequadas pode tornar-se bastante prolongado. A construção de um DW não necessita da adição de nova informação nas fontes, mas de um rearranjo desta. Desta forma, o Data Warehousing não passa de uma prática de visão estratégica sobre os dados de uma organização [10].

As instituições de saúde são consideradas ambientes com um elevado grau de au- tomação e, por isso, podem ser grandes beneficiadores da implementação de um DW clínico. A elevada disponibilidade e confiança na tecnologia atual torna o DW rele- vante nestes campos de aplicação. Um DW, combinado com relatórios e ferramentas de consulta, pode fazer surtir resultados bastantes promissores, apesar de todas as di- ficuldades de implementação inerentes bem como da necessidade de pessoal altamente especializado no assunto. Há cerca de 2 décadas, começaram a existir vários estudos e atualmente diversas aplicações também baseadas no conceito de DW implementado e utilizado na área médica [26, 29, 30].