Capítulo
Técnica 21 é um conjunto de procedimentos concretos ligados a uma arte ou ciência e que permite a aplicação do conhecimento científico na indústria ou nos
5.2 Qualidade da Informação
Consideremos um elemento α de uma representação que modela um objecto ω do mundo real. O elemento α pode ser um valor, um tuplo, um facto, uma regra, e por aí adiante.
Num extremo considera‐se que não existe sequer a certeza de que o objecto exista no mundo real. É uma situação de qualidade da informação mínima, a que podemos chamar ignorância. Uma solução poderá passar por pura e simplesmente não considerar os objectos nessas condições. Esta solução não será, no entanto, aceitável se a representação em causa se enquadrar no Pressuposto do Mundo Fechado, ou seja, onde todo o universo do discurso deverá estar representado.
A informação pode ser aperfeiçoada, diminuindo portanto a ignorância e aumentando a qualidade, se a cada elemento α da representação estiver associado um valor dentro de um intervalo predeterminado, para indicar a possibilidade do objecto existir. Se o elemento for um facto, este valor pode ser interpretado como o grau de segurança sobre a sua veracidade. Se for uma regra, este valor pode ser usado para perceber se é uma regra forte, atendendo à proporção de casos a que se possa aplicar.
Consideremos, por exemplo a afirmação “os fumadores inveterados adquirem cancro do pulmão”.
Está provado que o hábito de fumar é a principal causa de cancro do pulmão, mas nem todos os fumadores inveterados desenvolvem um cancro do pulmão. Estatisticamente, um fumador inveterado tem 85% de probabilidades de contrair cancro do pulmão. Podemos transformar a afirmação acima numa regra, para a qual não há quaisquer dúvidas sobre a sua veracidade.
Admitamos agora que o João é um fumador inveterado. Apenas pela aplicação desta regra ao João, não conseguimos saber com certeza se será um dos fumadores que vai contrair cancro do pulmão. A incerteza apenas afecta a aplicação da regra, não a sua veracidade. A incerteza resulta da incapacidade em articular todas as condições que tornam a regra aplicável, quer porque são parcialmente desconhecidas, quer porque são demasiadas ou porque são demasiado complexas.
Uma alternativa é representar explicitamente as excepções à regra para os objectos representados. Ou seja, se soubermos que o João não tem cancro do pulmão, podemos acrescentar esse facto na nossa representação. Facto esse que poderá vir a ser contraditado no futuro. Note‐se que este exemplo é diferente do exemplo clássico “Tweety”, pois é improvável que os pinguins alguma vez venham a voar.
Admita‐se agora que existe a certeza sobre a existência do objecto descrito pelo elemento α, mas que alguma da informação é desconhecida, ou seja, é o caso da situação já descrita antes de informação incompleta. A qualidade da informação aumenta quando é possível afirmar que o valor da representação do objecto está dentro de um intervalo de valores ou, melhor ainda, que pertence a um conjunto finito de alternativas. Neste último caso dizemos que a informação incompleta é disjuntiva. Obviamente que se o intervalo de valores for o universo de todos os valores possíveis, apenas podemos afirmar que o objecto existe
e voltamos ao limiar da qualidade mínima. Se, por outro lado, o conjunto for singular, podemos afirmar que a qualidade é máxima.
Price e Shanks (2008) (Neiger, Price et al. 2007)abordam a qualidade dos dados e a sua influência na tomada de decisões sob três perspectivas: sintáctica (a forma), semântica (o significado) e pragmática (quanto ao seu uso). É proposta por estes autores uma abordagem semiótica baseada em metadados sobre a qualidade dos dados a que chamam etiquetas de qualidade dos dados50, na senda de trabalhos de outros autores (Chengalur‐Smith, Ballou et al. 1999) (Fisher, Chengalur‐Smith et al. 2003).
As categorias sintácticas e semânticas estão relacionadas com a perspectiva objectiva da qualidade dos dados, enquanto a categoria pragmática se relaciona com uma perspectiva subjectiva, portanto dependente da percepção dos utilizadores desses mesmos dados. O objectivo é potenciar uma melhoria na tomada de decisão através de uma percepção clara pelos agentes de decisão quanto à qualidade dos dados envolvidos.
A categoria da qualidade sintáctica51 descreve o grau de conformidade dos dados armazenados num sistema em relação aos metadados também armazenados no mesmo sistema. Tem a ver com a avaliação da integridade dos dados e é o único critério nesta categoria. Os metadados incluem as definições de uma base de dados (o esquema relacional, por exemplo), documentação e regras constantes nos requisitos de um sistema de informação.
A categoria da qualidade semântica52 descreve o grau de correspondência dos dados com os fenómenos externos representados. Esta categoria é avaliada através de amostragens aleatórias e representada por seis critérios, que vão desde o mapeamento completo de todos os fenómenos externos relevantes até ao 50 data quality tags 51 syntactic quality category 52 semantic quality category
mapeamento de apenas alguns atributos não chave (mapeamento correcto de propriedades), cobrindo algumas das propriedades dos fenómenos externos.
A categoria da qualidade pragmática53 descreve o grau de adequação a uma situação específica, ou seja, se vale a pena usar os dados nessa situação em concreto. Situação essa que é, por sua vez, descrita por duas componentes: uma actividade a realizar (constituída por uma ou mais tarefas) e o seu contexto. Esta categoria aborda a qualidade dos dados na perspectiva da percepção dos utilizadores quanto à sua utilidade para a tomada de decisão em concreto. A sua avaliação é feita através de questionários e do escrutínio pelos utilizadores. Os critérios propostos para esta categoria são dez: acessibilidade, apresentação adequada, apresentação flexível, atempadamente, de forma compreensível, disponibilidade de metadados, de forma segura no acesso, percepção de conformidade com regras de integridade, percepção de completude e percepção de fiabilidade.
Madnick e Zhu (2006) relacionam o problema da qualidade da informação com a heterogeneidade semântica existente na generalidade dos sistemas de informação. A qualidade, ou a falta dela, é assim essencialmente uma questão de desencontro entre o significado dado pelas fontes da informação e aquele que é interpretado pelos consumidores da mesma informação.
Estes autores consideram duas dimensões principais da heterogeneidade que afectam a qualidade da informação: i) a heterogeneidade representacional e ii) a heterogeneidade ontológica.
A heterogeneidade representacional manifesta‐se quando o mesmo conceito pode ter representações diferentes nas fontes e nos consumidores da informação. Exemplos comuns são as datas (por exemplo, o dia 4 de Março de 2009 pode ser representado por 03/04/09, 04‐03‐09, 2009.03.04, etc.), as unidades de medida e as moedas. 53 pragmatic quality category
Na heterogeneidade ontológica o mesmo termo é usado para identificar conceitos similares mas ligeiramente diferentes. Mesmo termos bem conhecidos no mundo dos negócios, como, por exemplo, o índice de capitalização em bolsa das acções de uma empresa pode, no mesmo instante, ter valores substancialmente diferentes em fontes de informação financeira diferentes, dependendo da forma como é calculado (últimos 12 meses, último ano civil, último ano fiscal, etc.) (Madnick and Zhu 2006).
Mesmo considerando sempre a mesma fonte ou o mesmo consumidor de informação, quer a heterogeneidade representacional quer a ontológica podem manifestar‐se por alteração dos requisitos ao longo do tempo.
Para melhorar a qualidade da informação na utilização de bases de dados heterogéneas é então proposta uma ferramenta de mediação, baseada em conhecimento, entre os fornecedores da informação e os seus consumidores, designada por COntext INterchange (COIN). Com esta ferramenta seria possível interligar diferentes sistemas tendo por base, essencialmente, uma ontologia partilhada, com um conjunto limitado de conceitos previamente acordado entre as partes.
Rao e Osei‐Bryson (2007) definem um conjunto de medidas da qualidade agrupadas em quatro dimensões, que podem ser usadas para avaliar a qualidade de sistemas de gestão de conhecimento e permitir a sua comparação: dimensões ontológicas, dimensões dos itens de conhecimento, dimensões dos repositórios de conhecimento e dimensões da utilização do conhecimento.
Para cada uma das dimensões definem um conjunto extenso de critérios, como exactidão, clareza, actualidade, credibilidade, entre muitos outros. Para cada critério é ainda definida uma métrica, que, previsivelmente (dado que não é apresentada a formalização operacional do seu cálculo), para alguns critérios é muito fácil de calcular e para outros será muito difícil. Veja‐se, por exemplo, na Tabela 5.1 um fragmento da tabela das dimensões dos itens de conhecimento.
Tabela 5.1 – Dimensões dos itens de conhecimento Rao e Osei‐Bryson (fragmento)
Critério Qualidade do conhecimento
Actualidade Definição: quando o item de conhecimento foi descoberto pelo repositório e verificada a sua exactidão.
Métrica: o instante no eixo do tempo em que a verificação foi efectuada.
Exactidão Definição: exactidão do processo de extracção do conhecimento, manual ou automático. Exactidão dos itens de conhecimento. Métrica: grau em que se pode verificar que o conhecimento é verdadeiro.
Esta proposta tem o mérito de apresentar um conjunto exaustivo de critérios em múltiplas dimensões, que pode ser a base para a realização de benchmarking entre sistemas diferentes.
Hommersom e os seus colegas (2008) (Lucas 2003) propõem a utilização da dedução lógica, usando uma lógica temporal, aplicada à avaliação formal de requisitos de qualidade de guias clínicos. Pretendem, nomeadamente, avaliar se a informação neles contida está de acordo com os indicadores de qualidade propostos por profissionais da saúde.
Para esse efeito, usam um demonstrador de teoremas inicialmente previsto para a verificação de programas paralelos: KIV (Fensel and Schnogge 1997). Para efectuar a avaliação, é ainda necessário ter disponível mais conhecimento médico, para além daquele que está incluído no próprio guia clínico.
A execução de um guia clínico, propõem os autores acima, sendo um processo executado em passos, eventualmente iterativo, pode ser descrita usando uma extensão à lógica clássica, através da definição de quatro operadores temporais G, H, P e F com a semântica ilustrada na Tabela 5.2.
Tabela 5.2 – Operadores temporais na avaliação da qualidade em Guias Clínicos
Notação Interpretação Semântica formal
H foi sempre verdade no passado :
G será sempre verdade no futuro :
P foi verdade algures no passado
F será verdade algures no futuro
Estamos assim na presença de uma lógica modal onde os mundos possíveis estão relacionados entre si por uma ordem temporal, ou seja, as fórmulas são interpretadas numa estrutura temporal , , .
O conhecimento médico complementar necessário para validação dos guias clínicos é agrupado em dois tipos:
Conhecimento acerca dos mecanismos (pato)fisiológicos subjacentes à doença e de que forma são influenciados pelo tratamento. Poderá ser conhecimento de natureza causal (conhecimento objecto do guia). Conhecimento relacionado com as boas práticas na selecção de
tratamentos (metaconhecimento).
O conhecimento médico sobre a prescrição de medicamentos, por exemplo, que servirá para validar um dado guia pode ser então formalizado conforme segue:
5.1
onde d é o nome de um princípio activo denotado por um predicado, r é um requisito para essa droga produzir efeito e mk é um modo de actuação do princípio
Os modos de actuação podem ser combinados com um objectivo n (conseguir níveis normais de glicose no sangue, por exemplo), com uma condição particular c do estado do doente e com um conjunto de requisitos rj necessários para que esses
modos de actuação sejam eficazes:
5.2
As boas práticas da medicina podem então ser formalizadas através do conhecimento médico prévio (background), de um conjunto de drogas , , , de um conjunto de condições do estado de saúde do doente, de um conjunto de requisitos e de um conjunto de objectivos que o médico pretende atingir. Um conjunto de princípios activos é um tratamento se satisfizer as fórmulas 5.3 (i.e., os princípios activos não têm efeitos opostos) e 5.4 (i.e., as drogas tratam todos os problemas do doente):
5.3
5.4 5.3 Representação de Informação Imperfeita
Já apresentamos antes o conceito de negação forte (Gelfond and Lifschitz 1990), representado pela conectiva , também chamada negação clássica ou negação explícita, por oposição à negação por falha na prova ‐ not. Os programas lógicos gerais representam informação negativa implicitamente, através do raciocínio baseado no PMF. Pelo contrário, um programa em lógica extendida representa informação negativa de forma explícita, usando a negação forte. Podemos assim fazer
a distinção entre uma questão que falha porque não pode ser provada e uma questão que falha porque pode ser provada a sua negação (Neves 1984).
De facto, em muitas situações é útil representar
A
como um literal, desde que seja possível provarA
. O objectivo é representar explicitamente informação negativa, assim como descrever directamente o PMF para alguns predicados (circunscrição de predicados (Parsons 1996)). Três tipos de resposta a uma questão são então possíveis: verdadeiro, falso ou desconhecido, no caso de não existir informação para inferir uma das outras duas.A representação de valores nulos, essencial para o tratamento da informação imperfeita, como veremos, será também enquadrada na programação em lógica extendida. Consideram‐se dois tipos de valores nulos: um permitirá a representação de valores desconhecidos não necessariamente pertencentes a um dado conjunto de valores, e o segundo representará valores desconhecidos de um conjunto conhecido de valores possíveis (Analide, Novais et al. 2006).
Passemos agora a um exemplo no âmbito do objectivo desta tese: a tomada de decisão em grupo. No exemplo seguinte são consideradas as extensões aos predicados que representam algumas das características dos participantes num grupo de decisão, exprimindo uma medida das suas competências para o processo de tomada de decisão.
papel_no_grupo: Entidade x String credibilidade: Entidade x Inteiro reputação: Entidade x Inteiro
Exemplo 5.1 – Características dos participantes num grupo de decisão
O primeiro argumento representa o participante e o segundo representa o valor da propriedade. Por exemplo, credibilidade luís, 100 significa que a credibilidade do participante luís tem o valor 100.
No Programa 5.1 a negação forte é representada pelo símbolo , assinalando o que deve ser interpretado como falso e o termo not designa a negação por falha na prova.
1 credibilidade luis,100
2 credibilidade E,V not credibilidade E,V