• Nenhum resultado encontrado

Capítulo 4 A Gestão da Qualidade dos Dados em SDWs

4.2 Propostas de melhoria da qualidade dos dados

4.2.4 Information Product Map

Para avaliar as implicações da fraca qualidade dos dados é necessário entender as etapas do processo produtivo da informação, bem como o impacto provocado por tempos de espera asso- ciados a essas etapas [Shankaranarayan et al., 2003]. A proposta Information Product Map (IPMAP) possibilita uma compreensão intuitiva e a representação visual do processo produtivo dum PI [Shankaranarayan et al., 2000]. Esta abordagem consiste num método completo para a representação e melhoramento dos dados disponibilizados aos diversos intervenientes no proces- so produtivo, através da detecção das actividades que contribuem para diminuir o nível da quali- dade dos dados no processo produtivo ou que são responsáveis pela degeneração da linhagem destes. Tendo em vista a dar resposta a estas preocupações, a proposta visa alcançar os seguin- tes objectivos [Scannapieco et al., 2003]:

– Visualizar as fases críticas do processo produtivo que afectam a qualidade dos dados. – Visualizar os fluxos de dados em todo o processo, para avaliar se os tempos de espera

são os estimados para a entrega dos PIs.

– Medir o nível de qualidade dos dados nas diferentes etapas do processo produtivo. – Melhorar continuamente o processo produtivo.

O IPMAP permite ao decisor a visualização da distribuição dos dados e outros recursos ao longo do processo produtivo de criação dum PI. A combinação do IPMAP com um adequado repositório de metadados e as capacidades proporcionadas pela aplicação da TDQM, permitem ao decisor, em todas as etapas, a disponibilização de um conjunto de informações relativas ao nível de quali- dade dos dados assegurado pelo sistema, como sejam: a identificação do processo envolvido, a localização física, o sistema usado, a composição do produto ou subproduto e a organização en- volvida na criação dum PI. O IPMAP é uma extensão do sistema de produção proposto em [Ballou et al., 1998]. Enquanto, este último visa somente a obtenção da qualidade no produto final, o

IPMAP acrescenta a compreensão e representação do processo de produção do PI [Shankarana- rayan et al., 2003]. O IPMAP compreende cinco etapas [Scannapieco et al., 2003]:

– A catalogação dos PIs: para inventariar os PIs e as características que os individualizam (e.g. a natureza, os consumidores e os processos envolvidos).

– A identificação dos PIs críticos: no sentido de enveredar esforços para uma melhoria da qualidade (e.g. os responsáveis por gerar perdas avultadas por falta de qualidade).

– A definição dos requisitos de qualidade para os PIs críticos: para conhecer os requisitos considerados como um produto de qualidade. A qualidade na análise dum PI determina a necessidade em constituir métricas sobre o produto ou os componentes que o constituem. – A construção do IPMAP e do repositório de metadados: o IPMAP irá descrever grafica- mente, com recurso a oito blocos de construção, o processo de elaboração dum PI. Cada bloco é identificado por um nome único e descrito por um conjunto de atributos, que po- dem corresponder aos metadados.

– A avaliação e o melhoramento da qualidade dum PI: uma vez construído o IPMAP, po- dem-se implementar medidas visando a melhoria da qualidade dum PI. Esta etapa procura prevenir, detectar ou corrigir algumas anomalias nos dados. Porém, as inspecções não de- tectam todos os tipos de erros, incumbido à organização (ou ao administrador dos dados) a tarefa de ponderar o peso dos erros detectados e verificar se cumprem os compromis- sos estabelecidos. Na avaliação, é possível recorrer a matrizes de controlo, que são capa- zes de relacionar os problemas dos dados aos controlos de qualidade, para detectar e cor- rigir os problemas dos dados ao longo do processo produtivo [Pierce, 2004a].

Logo, pode-se referir que o propósito do IPMAP consiste em modelar todo o processo produtivo e compreender o modo como os vários componentes dum PI agem em conjunto. Em [Shankarana- rayan, 2005] refere-se que o IPMAP oferece três capacidades de gestão da qualidade dos dados e de implementação da TDQM: a estimativa do tempo de entrega, o alcance e o rastreio. O tempo de entrega dum PI corresponde ao tempo dispendido na elaboração da informação ou de um componente. O tempo necessário para a execução dum PI condiciona os decisores a ponderarem sobre PIs alternativos que respeitem os critérios predefinidos em tempo considerado aceitável. Esta questão revela-se particularmente interessante pela necessidade de um elevado grau de frescura dos dados divulgados por um SDW. A capacidade de alcance consiste na identificação de todas as etapas constituintes dum PI passíveis de visualização a partir de uma etapa descrita no IPMAP. A importância desta capacidade resulta, especialmente, da identificação do impacto pro- vocado por erros ao nível da qualidade. Se uma unidade de dados contida numa etapa do IPMAP

denotar falhas de qualidade, então afectará todas as etapas do processo produtivo que se encon- tram a jusante do local considerado. A capacidade de rastreio consiste em identificar ou traçar a sequência de uma ou mais etapas que precedem uma qualquer etapa. Assim, é facultada a visua- lização da árvore geneológica dos dados e permite ao administrador dos dados ou ao decisor a capacidade de averiguação sobre as causas das quebras de qualidade dos dados nos PIs. Segui- damente, iremos listar e descrever os oito símbolos de construção do IPMAP (tabela 4-1). Em IPMAP, cada símbolo é descrito por um conjunto de atributos.

Símbolo Designação Descrição

Fonte de dados (matéria-prima)

Representa cada fonte de dados necessária para a produção dum PI. Associado a este bloco encontra-se a unidade de negócio responsável pela fonte de dados, o processo usado para captura dos dados e o sistema que armazena esses dados.

Consumidor

(output) Representa o consumidor dum PI. O consumidor especifica os elementos de dados que constituem um PI, implicando a necessidade deste ser identificado antecipadamente. Associado a este bloco encontra-se a organização/unidade de negócio/departamento encarregue do PI, o nome da entidade que irá usar o produto e o conjunto de dados cons- tituintes do PI.

Qualidade dos dados

Indica a verificação da qualidade dos dados que compõe um PI. A avaliação dos compo- nentes possibilita a produção de informação livre de erros. Associado a este bloco existe uma lista de verificações de qualidade dos dados executadas em cada um dos componen- tes. Os inputs neste bloco são as fontes de dados e alguns componentes de dados (e.g. verificar domínios, verificar ausência de valores e autorizações).

Processamento Interpreta as manipulações, os cálculos ou combinações que envolvam, parcial ou total- mente, os dados provenientes das fontes ou dos componentes para a obtenção dum PI. Quando este bloco é usado com o propósito específico de limpeza ou correcção dos dados introduzidos, então passa a ser designado como bloco de correcção dos dados. Armazenamen-

to dos dados

Este bloco é usado para indicar a captura de elementos de dados em bases de dados ou ficheiros para futuras utilizações. Estes blocos podem ser usados para representar os elementos de dados (matérias-primas ou componentes) que esperam processamento futuro ou são capturados como parte do inventário de dados na organização. Limites do

negócio

Identifica as matérias-primas ou componentes dos dados que são transmitidas para outra organização/unidade de negócio/departamento. O papel deste bloco consiste em realçar problemas de qualidade dos dados que podem aparecer pelo cruzamento entre organiza- ções ou unidades de negócio.

Decisão Em sistemas de produção de informação mais complexos pode ser necessário direccionar condicionalmente os elementos de dados para conjuntos de blocos para processamento futuro. Nestes casos, um bloco de decisão é usado para representar as diferentes condi- ções a avaliar e os correspondentes procedimentos que irão acolher os dados provenien- tes dessa avaliação (e.g. os dados relacionados com o nascimento podem ser usados para gerar um certificado de nascimento ou relatório sobre estatísticas de nascimento). Cada objecto representa um PI e pode usar os mesmos dados (componentes e matérias- primas) na sua produção.

Limites do sistema de informação

Indica o reflexo entre as mudanças das matérias-primas ou elementos componentes dos dados no movimento de um sistema de informação para outro sistema de informação, especificando assim, os sistemas envolvidos. As mudanças podem ser interiores ou exte- riores às unidades do negócio. As matérias-primas ou componentes podem circular por limites do negócio ou entre sistemas de informação (e.g. movimentação de elementos de dados de um SGBD para outro).