• Nenhum resultado encontrado

Qualidade da Informação 

Capítulo 

Técnica 21   é um conjunto de procedimentos concretos ligados a uma arte ou ciência e que permite a aplicação do conhecimento científico na indústria ou nos 

5.2   Qualidade da Informação 

Consideremos um elemento α de uma representação que modela um objecto ω  do mundo real. O elemento α pode ser um valor, um tuplo, um facto, uma regra, e  por aí adiante.  

Num  extremo  considera‐se  que  não  existe  sequer  a  certeza  de  que  o  objecto  exista  no  mundo  real.  É  uma  situação  de  qualidade  da  informação  mínima,  a  que  podemos  chamar  ignorância.  Uma  solução  poderá  passar  por  pura  e  simplesmente  não  considerar  os  objectos  nessas  condições.  Esta  solução  não  será,  no  entanto,  aceitável  se  a  representação  em  causa  se  enquadrar  no  Pressuposto  do  Mundo  Fechado, ou seja, onde todo o universo do discurso deverá estar representado. 

A  informação  pode  ser  aperfeiçoada,  diminuindo  portanto  a  ignorância  e  aumentando  a  qualidade,  se  a cada  elemento α  da  representação  estiver  associado  um  valor  dentro  de  um  intervalo  predeterminado,  para  indicar  a  possibilidade  do  objecto existir. Se o elemento for um facto, este valor pode ser interpretado como o  grau  de  segurança  sobre  a  sua  veracidade.  Se  for  uma  regra,  este  valor  pode  ser  usado para perceber se é uma regra forte, atendendo à proporção de casos a que se  possa aplicar. 

Consideremos,  por  exemplo  a  afirmação  “os  fumadores  inveterados adquirem  cancro do pulmão”.  

Está provado que o hábito de fumar é a principal causa de cancro do pulmão,  mas  nem  todos  os  fumadores  inveterados  desenvolvem  um  cancro  do  pulmão.  Estatisticamente,  um  fumador  inveterado  tem  85%  de  probabilidades  de  contrair  cancro do pulmão. Podemos transformar a afirmação acima numa regra, para a qual  não há quaisquer dúvidas sobre a sua veracidade.  

Admitamos agora que o João é um fumador inveterado. Apenas pela aplicação  desta regra ao João, não conseguimos saber com certeza se será um dos fumadores  que  vai  contrair  cancro  do  pulmão.  A  incerteza  apenas  afecta  a  aplicação  da  regra,  não  a  sua  veracidade.  A  incerteza  resulta  da  incapacidade  em  articular  todas  as  condições  que  tornam  a  regra  aplicável,  quer  porque  são  parcialmente  desconhecidas, quer porque são demasiadas ou porque são demasiado complexas. 

Uma  alternativa  é  representar  explicitamente  as  excepções  à  regra  para  os  objectos  representados.  Ou  seja,  se  soubermos  que  o  João  não  tem  cancro  do  pulmão,  podemos  acrescentar  esse  facto  na  nossa  representação.  Facto  esse  que  poderá  vir  a  ser  contraditado  no  futuro.  Note‐se  que  este  exemplo  é  diferente  do  exemplo clássico “Tweety”, pois é improvável que os pinguins alguma vez venham a  voar. 

Admita‐se agora que existe a certeza sobre a existência do objecto descrito pelo  elemento  α,  mas  que  alguma  da  informação  é  desconhecida,  ou  seja,  é  o  caso  da  situação já descrita antes de informação incompleta.  A qualidade da informação aumenta quando é possível afirmar que o valor da  representação do objecto está dentro de um intervalo de valores ou, melhor ainda,  que pertence a um conjunto finito de alternativas. Neste último caso dizemos que a  informação incompleta é disjuntiva. Obviamente que se o intervalo de valores for o  universo de todos os valores possíveis, apenas podemos afirmar que o objecto existe 

e voltamos ao limiar da qualidade mínima. Se, por outro lado, o conjunto for singular,  podemos afirmar que a qualidade é máxima. 

Price e Shanks  (2008) (Neiger, Price et al. 2007)abordam a qualidade dos dados  e a sua influência na tomada de decisões sob três perspectivas: sintáctica (a forma),  semântica  (o  significado)  e  pragmática  (quanto  ao  seu  uso).  É  proposta  por  estes  autores  uma  abordagem  semiótica  baseada  em  metadados  sobre  a  qualidade  dos  dados a que chamam etiquetas de qualidade dos dados50, na senda de trabalhos de  outros  autores  (Chengalur‐Smith,  Ballou  et  al.  1999)  (Fisher,  Chengalur‐Smith  et  al.  2003).  

As  categorias  sintácticas  e  semânticas  estão  relacionadas  com  a  perspectiva  objectiva da qualidade dos dados, enquanto a categoria pragmática se relaciona com  uma  perspectiva  subjectiva,  portanto  dependente  da  percepção  dos  utilizadores  desses mesmos dados. O objectivo é potenciar uma melhoria na tomada de decisão  através  de  uma  percepção  clara  pelos  agentes  de  decisão  quanto  à  qualidade  dos  dados envolvidos.  

A  categoria  da  qualidade  sintáctica51  descreve  o  grau  de  conformidade  dos  dados  armazenados  num  sistema  em  relação  aos  metadados  também  armazenados  no mesmo sistema. Tem a ver com a avaliação da integridade dos dados e é o único  critério nesta categoria. Os metadados incluem as definições de uma base de dados  (o  esquema  relacional,  por  exemplo),  documentação  e  regras  constantes  nos  requisitos de um sistema de informação.  

A categoria da qualidade semântica52 descreve o grau de correspondência dos  dados com os fenómenos externos representados. Esta categoria é avaliada através  de  amostragens  aleatórias  e  representada  por  seis  critérios,  que  vão  desde  o  mapeamento  completo  de  todos  os  fenómenos  externos  relevantes  até  ao            50  data quality tags  51 syntactic quality category  52  semantic quality category 

mapeamento  de  apenas  alguns  atributos  não  chave  (mapeamento  correcto  de  propriedades), cobrindo algumas das propriedades dos fenómenos externos.  

A  categoria  da  qualidade  pragmática53  descreve  o  grau  de  adequação  a  uma  situação específica, ou seja, se vale a pena usar os dados nessa situação em concreto.  Situação essa que é, por sua vez, descrita por duas componentes: uma actividade a  realizar (constituída por uma ou mais tarefas) e o seu contexto. Esta categoria aborda  a  qualidade  dos  dados  na  perspectiva  da  percepção  dos  utilizadores  quanto  à  sua  utilidade para a tomada de decisão em concreto. A sua avaliação é feita através de  questionários  e  do  escrutínio  pelos  utilizadores.  Os  critérios  propostos  para  esta  categoria  são  dez:  acessibilidade,  apresentação  adequada,  apresentação  flexível,  atempadamente,  de  forma  compreensível,  disponibilidade  de  metadados,  de  forma  segura no acesso, percepção de conformidade com regras de integridade, percepção  de completude e percepção de fiabilidade. 

Madnick e Zhu (2006) relacionam o problema da qualidade da informação com  a heterogeneidade semântica existente na generalidade dos sistemas de informação.  A  qualidade,  ou  a  falta  dela,  é  assim  essencialmente  uma  questão  de  desencontro  entre  o  significado  dado  pelas  fontes  da  informação  e  aquele  que  é  interpretado  pelos consumidores da mesma informação.  

Estes  autores  consideram  duas  dimensões  principais  da  heterogeneidade  que  afectam  a  qualidade  da  informação:  i)  a  heterogeneidade  representacional  e  ii)  a  heterogeneidade ontológica.  

A  heterogeneidade  representacional  manifesta‐se  quando  o  mesmo  conceito  pode  ter  representações  diferentes  nas  fontes  e  nos  consumidores  da  informação.  Exemplos  comuns  são  as  datas  (por  exemplo,  o  dia  4  de  Março  de  2009  pode  ser  representado por 03/04/09, 04‐03‐09, 2009.03.04, etc.), as unidades de medida e as  moedas.             53  pragmatic quality category 

Na  heterogeneidade  ontológica  o  mesmo  termo  é  usado  para  identificar  conceitos similares mas ligeiramente diferentes. Mesmo termos bem conhecidos no  mundo  dos  negócios,  como,  por  exemplo,  o  índice  de  capitalização  em  bolsa  das  acções  de  uma  empresa  pode,  no  mesmo  instante,  ter  valores  substancialmente  diferentes  em  fontes  de  informação  financeira  diferentes,  dependendo  da  forma  como é calculado (últimos 12 meses, último ano civil, último ano fiscal, etc.) (Madnick  and Zhu 2006).  

Mesmo  considerando  sempre  a  mesma  fonte  ou  o  mesmo  consumidor  de  informação,  quer  a  heterogeneidade  representacional  quer  a  ontológica  podem  manifestar‐se por alteração dos requisitos ao longo do tempo.  

Para  melhorar  a  qualidade  da  informação  na  utilização  de  bases  de  dados  heterogéneas  é  então  proposta  uma  ferramenta  de  mediação,  baseada  em  conhecimento,  entre  os  fornecedores  da  informação  e  os  seus  consumidores,  designada  por  COntext  INterchange  (COIN).  Com  esta  ferramenta  seria  possível  interligar  diferentes  sistemas  tendo  por  base,  essencialmente,  uma  ontologia  partilhada,  com  um  conjunto  limitado  de  conceitos  previamente  acordado  entre  as  partes. 

Rao  e  Osei‐Bryson  (2007)  definem  um  conjunto  de  medidas  da  qualidade  agrupadas em quatro dimensões, que podem ser usadas para avaliar a qualidade de  sistemas  de  gestão  de  conhecimento  e  permitir  a  sua  comparação:  dimensões  ontológicas,  dimensões  dos  itens  de  conhecimento,  dimensões  dos  repositórios  de  conhecimento e dimensões da utilização do conhecimento.  

Para cada uma das dimensões definem um conjunto extenso de critérios, como  exactidão, clareza, actualidade, credibilidade, entre muitos outros. Para cada critério  é  ainda  definida  uma  métrica,  que, previsivelmente (dado  que  não  é apresentada a  formalização  operacional  do  seu  cálculo),  para  alguns  critérios  é  muito  fácil  de  calcular  e  para  outros  será  muito  difícil.  Veja‐se,  por  exemplo,  na  Tabela  5.1  um  fragmento da tabela das dimensões dos itens de conhecimento. 

Tabela 5.1 – Dimensões dos itens de conhecimento Rao e Osei‐Bryson (fragmento) 

Critério  Qualidade do conhecimento 

Actualidade  Definição:  quando  o  item  de  conhecimento  foi  descoberto  pelo  repositório e verificada a sua exactidão. 

Métrica:  o  instante  no  eixo  do  tempo  em  que  a  verificação  foi  efectuada. 

Exactidão  Definição: exactidão do processo de extracção do conhecimento,  manual ou automático. Exactidão dos itens de conhecimento.  Métrica:  grau  em  que  se  pode  verificar  que  o  conhecimento  é  verdadeiro. 

 

Esta  proposta  tem  o  mérito  de  apresentar  um  conjunto  exaustivo  de  critérios  em  múltiplas  dimensões,  que  pode  ser  a  base  para  a  realização  de  benchmarking  entre sistemas diferentes. 

Hommersom  e  os  seus  colegas  (2008)  (Lucas  2003)  propõem  a  utilização  da  dedução  lógica,  usando  uma  lógica  temporal,  aplicada  à  avaliação  formal  de  requisitos  de  qualidade  de  guias  clínicos.  Pretendem,  nomeadamente,  avaliar  se  a  informação neles contida está de acordo com os indicadores de qualidade propostos  por profissionais da saúde.  

Para  esse  efeito,  usam  um  demonstrador  de  teoremas  inicialmente  previsto  para  a  verificação  de  programas  paralelos:  KIV  (Fensel  and  Schnogge  1997).  Para  efectuar  a  avaliação,  é  ainda  necessário  ter  disponível  mais  conhecimento  médico,  para além daquele que está incluído no próprio guia clínico.  

A execução de um guia clínico, propõem os autores acima, sendo um processo  executado  em  passos,  eventualmente  iterativo,  pode  ser  descrita  usando  uma  extensão à lógica clássica, através da definição de quatro operadores temporais G, H,  P e F com a semântica ilustrada na Tabela 5.2. 

Tabela 5.2 – Operadores temporais na avaliação da qualidade em Guias Clínicos 

Notação  Interpretação  Semântica formal 

H  foi sempre verdade no passado  :  

G   será sempre verdade no futuro  :  

P   foi verdade algures no passado     

F   será verdade algures no futuro     

 

Estamos  assim  na  presença  de  uma  lógica  modal  onde  os  mundos  possíveis  estão  relacionados  entre  si  por  uma  ordem  temporal,  ou  seja,  as  fórmulas  são  interpretadas numa estrutura temporal  , , . 

O  conhecimento  médico  complementar  necessário  para  validação  dos  guias  clínicos é agrupado em dois tipos: 

 Conhecimento  acerca  dos  mecanismos  (pato)fisiológicos  subjacentes  à  doença  e  de  que  forma  são  influenciados  pelo  tratamento.  Poderá  ser  conhecimento de natureza causal (conhecimento objecto do guia).   Conhecimento  relacionado  com  as  boas  práticas  na  selecção  de 

tratamentos (metaconhecimento).   

O  conhecimento  médico  sobre  a  prescrição  de  medicamentos,  por  exemplo,  que servirá para validar um dado guia pode ser então formalizado conforme segue: 

  5.1 

 

onde  d  é  o  nome  de  um  princípio  activo  denotado  por  um  predicado,  r  é  um  requisito para essa droga produzir efeito e mk é um modo de actuação do princípio 

Os modos de actuação podem ser combinados com um objectivo n (conseguir  níveis normais de glicose no sangue, por exemplo), com uma condição particular c do  estado  do  doente  e  com  um  conjunto  de  requisitos  rj  necessários  para  que  esses 

modos de actuação sejam eficazes: 

  5.2 

 

As  boas  práticas  da  medicina  podem  então  ser  formalizadas  através  do  conhecimento médico prévio  (background), de um conjunto de drogas  , , , de um conjunto   de condições do estado de saúde do doente, de um conjunto  de  requisitos    e  de  um  conjunto  de  objectivos    que  o  médico  pretende  atingir.  Um  conjunto  de  princípios  activos    é  um  tratamento  se  satisfizer  as  fórmulas  5.3  (i.e., os princípios activos não têm efeitos opostos) e 5.4 (i.e., as drogas tratam todos  os problemas do doente): 

 

5.3   

 

5.4    5.3  Representação de Informação Imperfeita 

Já  apresentamos  antes  o  conceito  de  negação  forte  (Gelfond  and  Lifschitz  1990),  representado  pela  conectiva    ,  também  chamada  negação  clássica  ou  negação explícita,  por  oposição  à  negação  por  falha  na  prova  ‐  not.  Os  programas  lógicos gerais representam informação negativa implicitamente, através do raciocínio  baseado  no  PMF.  Pelo  contrário,  um  programa  em  lógica  extendida  representa  informação negativa de forma explícita, usando a negação forte. Podemos assim fazer 

a distinção entre uma questão que falha porque não pode ser provada e uma questão  que falha porque pode ser provada a sua negação (Neves 1984). 

De facto, em muitas situações é útil representar 

A

 como um literal, desde que  seja  possível  provar 

A

. O  objectivo  é  representar  explicitamente  informação  negativa,  assim  como  descrever  directamente  o  PMF  para  alguns  predicados  (circunscrição  de  predicados  (Parsons  1996)).  Três  tipos  de  resposta  a  uma  questão  são  então  possíveis:  verdadeiro,  falso  ou  desconhecido,  no  caso  de  não  existir  informação para inferir uma das outras duas.  

A  representação  de  valores  nulos,  essencial  para  o  tratamento  da  informação  imperfeita,  como  veremos,  será  também  enquadrada  na  programação  em  lógica  extendida. Consideram‐se dois tipos de valores nulos: um permitirá a representação  de valores desconhecidos não necessariamente pertencentes a um dado conjunto de  valores, e o segundo representará valores desconhecidos de um conjunto conhecido  de valores possíveis (Analide, Novais et al. 2006). 

Passemos agora a um exemplo no âmbito do objectivo desta tese: a tomada de  decisão  em  grupo.  No  exemplo  seguinte  são  consideradas  as  extensões  aos  predicados que representam algumas das características dos participantes num grupo  de  decisão,  exprimindo  uma  medida  das  suas  competências  para  o  processo  de  tomada de decisão. 

 

papel_no_grupo: Entidade x String credibilidade: Entidade x Inteiro reputação: Entidade x Inteiro

Exemplo 5.1 – Características dos participantes num grupo de decisão 

 

O primeiro argumento representa o participante e o segundo representa o valor  da  propriedade.  Por  exemplo, credibilidade luís, 100   significa  que  a  credibilidade  do participante luís tem o valor 100. 

No Programa 5.1 a negação forte é representada pelo símbolo , assinalando o  que deve ser interpretado como falso e o termo not designa a negação por falha na  prova. 

 

1 credibilidade luis,100

2 credibilidade E,V not credibilidade E,V