• Nenhum resultado encontrado

Abordagem dirigida a métricas para avaliar a qualidade de dados abertos

Este trabalho tem como objetivo propor e validar um conjunto de métricas para avaliar ca- racterísticas de qualidade inerentes a um dataset antes da sua liberação na Linked Open Data Cloud. Segundo Behkamal (2013) qualidade inerente é: (i) a habilidade do dataset em representar efetivamente e refletir informações do mundo real nos dados; e (ii) a coerência interna dos dados que são representados como uma parte do mesmo dataset.

Com isso, em seu trabalho, Behkamal (2013) reúne três dimensões relevantes que são aspectos de qualidade inerentes de Linked Open Data (LOD), as quais são: Accuracy, Com- pletenesse Consistency. Com o objetivo de melhor estudar a dimensão accuracy, o mesmo propõe três dimensões que são chamadas de semantic accuracy, syntatic accuracy e unique- ness.

Existem outras dimensões de qualidade, como Credibility e Timeliness, no entanto as mesmas não foram incluídas, porque elas não são consideradas dimensões de qualidade inerentes no contexto de LOD. Por exemplo, Credibility é relacionado à confiabilidade do datasetassim como , Provenance, Verifiability, Believability, e Licensing que são outras di- mensões de qualidade. A dimensão timeliness é um importante aspecto de LOD que está relacionado à dinamicidade do dataset e refere-se ao tempo de duração em que o dado atua- lizado é usado.

• Syntatic Accuracy: é definida como sendo “a proximidade dos valores de dados para um conjunto de valores definidos em um domínio considerado sintaticamente correto”. • Semantic Accuracy: refere-se à correção de um valor de dados em comparação com o valor real do mundo real, ou seja, todos os recursos ou entidade descrita em um dataset deve ter uma correspondência no mundo real.

• Uniqueness: é o grau em que uma ontologia é livre de redundâncias levando em con- sideração classes e propriedades.

• Consistency: é definida como o grau para o qual os atributos dos dados estão livres de contradições e são coerentes com outros dados em um contexto de uso específico. • Completeness: refere-se ao grau em que todas as informações requeridas para descre-

ver um conceito estão presentes em um dataset. O nível de detalhe é definido como a quantidade de dados disponíveis para a descrição de entidades do mundo real em um dataset.

Behkamal (2013) em seu trabalho emprega a abordagem Goal-Question-Metric (GQM) com o objetivo de levantar métricas para avaliação de cada dimensão de qualidade. Dessa forma, o mesmo define um obetivo principal (Goal), que é “avaliar a qualidade inerente de um dataset a partir do ponto de vista do usuário no contexto de LOD”. Para avaliar cada dimensão de qualidade o mesmo define cinco sub-objetivos (SG – Sub-Goal), onde cada um é voltado para avaliar uma dimensão de qualidade. Nas tabelas abaixo estão descritas as questões e as métricas.

Tabela 7 –Avaliação da Semantic Accuracy de um dataset a partir pa perspectiva do usuário no contexto de LOD

Questão Métrica Definição

M1. Razão das triplas que contém objetos faltantes.

O número de triplas contendo propriedades com os valores em falta no que diz respeito às proprie- dades definidas no esquema, dividido pelo número total de triplas num conjunto de dados, subtraído a partir de 1.

As entidades são descritas com valores corretos?

M2. Razão das triplas com objetos fora do alcance.

O número de triplas que contém propriedades com valores discrepantes em relação ao alcance dos valores aceitáveis definidos no esquema, dividido pelo número total de triplas no dataset subtraídas por 1.

M3. A razão de triplas que contém valores de dados com erros de ortografia.

O número de triplas que contém propriedades com valores com erros de ortografia, dividido pelo nú- mero total triplas no dataset, subtraído por 1. As entidades representam

precisamente o mundo real?

M4. Razão das entida- des sem correspondente no mundo real.

O número de entidades sem objetos correspon- dente no mundo real, dividido pelo número total de entidades descritas no dataset, subtraído por 1. Fonte: Fonte: Behkamal (2013)

Tabela 8 –Avaliação de Syntactic Accuracy de um dataset a partir da perspectiva do usuário no contexto de LOD.

Questão Métrica Definição A sintaxe do

documento RDF é válida?

M5. Razão das triplas sinta- ticamente incorretas.

O número de triplas que contém propriedades com erros de sintaxe, dividido pelo número total de trilhas do data- set, subtraídas por 1.

M6. Razão de triplas com atribuições impróprias de ti- pos de dados literais.

O número de triplas que contém propriedades com atri- buições inadequadas de tipos de dados literais, divididos pelo número total de triplas do dataset, sutraído por 1. Os recursos estão des- critos com propriedades adequadas? M7. Razão de instâncias usando classes/propriedades indefinidas.

Número de instâncias que usam classes/propriedades in- definidas, divididas pelo número total de entidades do da- taset, subtraída por 1.

M8. Razão de instâncias sendo membros de classes disjuntas.

Número de instâncias sendo membros de classes disjun- tas, dividido pelo número total de instâncias do dataset, subtraídas por 1.

M9. Razão de triplas que contém uso indevido de vo- cabulário.

O número de triplas que contém propriedades com uso indevido de vocabulário, dividido pelo número total de triplas do dataset, subtraídas por 1.

Fonte: Behkamal (2013)

Tabela 9 –Avaliação de Uniqueness de um dataset a partir da perspectiva do usuário no contexto de LOD

Questão Métrica Definição

Qual é o grau de redundân- cia no contexto de classes?

M10. Razão de redundância das classes.

O número de classes com a mesma propriedade, dividido pelo número de classes definido no es- quema do dataset, subtraído por 1.

Qual é o grau de redundân- cia no contexto de proprie- dades?

M11. Razão de proprieda- des similares.

O número de propriedades similares, dividido pelo número total de propriedades definidas no es- quema do dataset, subtraído por 1.

O dataset contém múlti- plas representações para a mesma entidade?

M12. Razão de instâncias redundantes.

O número de instâncias com URI diferentes, mas a mesma propriedade dividido pelo número total de instâncias de um dataset.

O dataset contém valores redundantes para proprieda- des?

M13. Razão de proprieda- des funcionais com valores diferentes.

Número de propriedades funcionais que contém valores diferentes, divididos pelo número total de propriedades definidas no esquema de um dataset, subtraído por 1.

Tabela 10 –Avaliação de Consistency de um dataset a partir da perspectiva do usuário no contexto de LOD

Questão Métrica Definição

M14. Quantidade de mem- bros (membership) de clas- ses disjuntas.

O número de entidades que são membros de clas- ses disjuntas.

Existe alguma inconsistên- cia no esquema do dataset?

M15. Uso inválido de pro- priedades funcionais inver- sas.

O número de triplas que contém uso inválido de propriedades funcionais inversas

M16. Razão das triplas que usam propriedades simila- res.

O número de triplas que usam propriedades simi- lares, dividido pelo número total de triplas em um dataset, subtraído por 1.

M17. Tipos de dados hete- rogêneos.

O número de tipos de dados heterogêneos no es- quema.

Qual é o grau de conflitos no contexto do valor do dado?

M18. Valores de proprieda- des inconsistentes.

O número de propriedades com valores inconsis- tentes.

Fonte: Behkamal (2013)

Tabela 11 –Avaliação de completeness de um dataset a partir da perspectiva do usuário no contexto de LOD

Questão Métrica Definição

Todos os recursos foram descritos com o número de propriedade adequado?

M19. Razão de proprieda- des para classes.

O número de propriedades, dividido pelo número de classes descritos em um dataset.

Todas as informações neces- sárias para cada entidade fo- ram apresentadas?

M20. Falta de propriedades por instância.

Soma do número de propriedades apresentado por instância, dividido pelo número total de instâncias em um dataset.

Fonte: Behkamal (2013)

3.2.1 Limitações deste trabalho

Uma das limitações consiste em avaliar as dimensões de forma manual, ou seja, a avaliação proposta pelo autor não é automática e nem semiautomática, consumindo assim, um tempo considerável da mesma e aumento da carga de trabalho. Não foi desenvolvida ferramenta para auxiliar no processo de avaliação, dificultando assim, a avaliação por parte do usuário. Com isso, não há geração de relatório, e consequentemente, não fica transparente a qualidade do dataset.

3.3

Avaliação de qualidade dirigida à usuário do DBpedia (Zaveri,

Documentos relacionados