Uma abordagem para avaliação da qualidade de linked datasets para aplicações de domínio específicos

(1)

“Uma Abordagem para Avaliação da Qualidade de Linked Datasets para Aplicações de Domínio Específico”

Por

Walter Travassos Sarinho

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

Universidade Federal de Pernambuco CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Walter Travassos Sarinho

“UMA ABORDAGEM PARA AVALIAÇÃO DA QUALIDADE DE LINKED DATASETS PARA APLICAÇÕES DE DOMÍNIO ESPECÍFICO"

ORIENTADORA: Profa. Dra. Bernadette Farias Lóscio CO-ORIENTADORA: Profa. Dra. Damires Souza

RECIFE, 2014

Este trabalho foi apresentado à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal DE

PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

S245a Sarinho, Walter Travassos.

Uma abordagem para avaliação da qualidade de linked datasets para aplicações de domínio específicos / Walter Travassos Sarinho. – Recife: O Autor, 2014.

154 f.: il., fig., quadro

Orientador: Bernadette Farias Lóscio.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIN. Ciência da Computação, 2014.

Inclui referências e apêndices.

1. Banco de dados. 2. Web semântica. 3. Integração de dados. I. Lóscio, Bernadette Farias (orientadora). II. Título.

025.04 CDD (23. ed.) UFPE- MEI 2014-157

(4)

SERVIÇO PÚBLICO FEDERAL

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

Pós-Graduação em Ciência da Computação

Ata de Defesa de Dissertação de Mestrado do

CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDE-

RAL DE PERNAMBUCO,7 DE AGOSTO DE 2014.

Ao sétimo dia do mês de agosto do ano de dois mil e catorze, às dez horas, no Centro de Informática da Universidade Federal de Pernambuco, teve início a milésima tricentésima nonagésima quinta defesa de dissertação do Mestrado em Ciência da Computação, intitulada “Uma Abordagem para Avaliação da Qualidade de Linked Datasets para Aplicações de Domínio Específico” do candidato Walter Travassos Sarinho o qual já havia preenchido anteriormente as demais condições exigidas para a obtenção do grau de mestre. A Banca Examinadora, composta pelos professores Ana Carolina Brandão Salgado, pertencente ao Centro de Informática desta Universidade, Maria da Conceição Moraes Batista, pertencente ao Departamento de Estatística e Informática da Universidade Federal Rural de Pernambuco e Bernadette Farias Lóscio, pertencente ao Centro de Informática desta Universidade, sendo a primeira presidente da banca examinadora e a última orientadora do trabalho de dissertação, decidiu: Aprovar o trabalho. E para constar lavrei a presente ata que vai por mim assinada e pela Banca Examinadora. Recife, 7 de agosto de 2014.

___________________________________________ Maria Lília Pinheiro de Freitas

(secretária)

___________________________________________ Profa. Ana Carolina Brandão Salgado

Centro de Informática/ UFPE

___________________________________________ Profa. Maria da Conceição Moraes Batista

Departamento de Estatística e Informática / UFRPE

____________________________________________ Profa. Bernadette Farias Lóscio

(5)

Dedico este trabalho a minha família, meus amigos e as minhas orientadoras.

(6)

A

GRADECIMENTOS

São tantos agradecimentos que talvez seja necessário mais um capítulo só para fazê-lo. Muitas pessoas me ajudaram a concluir esta etapa e não gostaria de cometer a injustiça de esquecer alguém.

Acima de qualquer pessoa, agradeço a Deus por ter me concedido esta chance de colocar toda minha capacidade a prova para concluir esta dissertação.

Agradeço a minha família, em especial a minha mãe Elizabeth e meu padrasto Vicente por todo suporte que me foi dado para investir mais dois anos no mestrado. Agradeço também ao meu falecido pai, que nos deixou tão cedo e nunca teve a oportunidade de ver o crescimento de seus filhos.

Agradeço a minha orientadora e amiga Bernadette Farias Lóscio por todos os ensinamentos, por toda paciência e, principalmente, por saber discernir quando deveria me ensinar e quando deveria me deixar encontrar as respostas. Agradeço também a minha co-orientadora e amiga Damires Yluska de Souza Fernandes que desde minha graduação estimulou a pesquisa científica e me despertou o interesse em cursar o mestrado. Foi um privilégio ter esta excelente dupla de orientadoras!

Agradeço a Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pelo auxílio financeiro que possibilitou a realização deste trabalho.

Agradeço também as professoras Ana Carolina Salgado e Maria da Conceição Batista, pela participação na banca examinadora deste trabalho.

Agradeço a todos os amigos que fiz em Recife, em especial a Danusa Ribeiro e Bruno Maciel que, no meio de tantas xícaras de café, compartilharam ideias, devaneios intelectuais, opiniões e artigos. Agradeço ao amigo de graduação Antonio Ezequiel por ter embarcado comigo nesta jornada do mestrado. Agradeço também a minha amiga Glaucia Campos por todo apoio e companheirismo. Agradeço ao amigo e médico Dr. Diógenes que sempre me ajudou nos momentos mais difíceis. Agradeço também aos amigos Daniel, Glaucio, Thiago, Nill, Bia, Thalita, Rodolfo, Marina, Ricardo, Claúdia, entre tantos outros, que, apesar de não compreenderem uma linha de código, tornaram essa fase mais leve apenas por se fazerem presentes em algum momento.

(7)

“A tarefa não é tanto ver aquilo que ninguém viu, mas pensar o que ninguém ainda pensou sobre aquilo que todo mundo vê.” (Arthur Schopenhauer)

(8)

R

ESUMO

O crescimento da Web de Dados possibilita uma série de novas aplicações que podem fazer uso de múltiplos Linked Datasets (fontes de dados publicadas segundo os princípios Linked Data). O grande número de fontes de dados disponíveis na Web de Dados, bem como a falta de informações sobre a proveniência e a qualidade destes dados, traz à tona um grande desafio: como identificar os melhores Linked Datasets para uma determinada aplicação? Uma possível solução é utilizar critérios de Qualidade da Informação (QI) no processo de avaliação dos Linked Datasets, considerando os requisitos específicos da aplicação. Neste cenário, esta dissertação propõe uma abordagem, denominada QualityStamp, para avaliação da qualidade de Linked Datasets para aplicações de Domínio Específico. A abordagem proposta utiliza cinco critérios de qualidade (disponibilidade, tempo de resposta, atraso de fila, completude e interlinking) cujo objetivo é avaliar três características dos Linked Datasets: (i) o desempenho, (ii) a capacidade de responder a um conjunto de consultas e (iii) o grau de interligações de um dataset a outro. A avaliação de qualidade é guiada pelos requisitos da aplicação, os quais são representados por meio de um conjunto de consultas e dos requisitos não funcionais, que correspondem aos critérios de qualidade mais indicados para a aplicação. Dessa forma, no momento da avaliação, um especialista no domínio (ED) deverá escolher os critérios de qualidade que mais se adequam à aplicação. Como resultado da avaliação, é gerada uma medida global de qualidade cujo objetivo é prover uma classificação entre linked datasets os candidatos. Ao longo do trabalho, a abordagem é apresentada e os experimentos para avaliação da mesma são descritos.

Palavras-Chave: Linked Data. Linked Datasets. Qualidade da Informação. Avaliação da Qualidade. Aplicações de domínio específico. Requisitos da Aplicação.

(9)

A

BSTRACT

The growth of the Web of Data makes possible a number of new applications that can make use of multiple Linked Datasets (data sources published according to the Linked Data principles). The large number of data sources available on the Web of Data and the lack of information about the provenance and quality of data have revealed a major challenge: how to identify the best Linked Datasets for a given application? One possible solution is to use Information Quality (IQ) criteria in order to assess the quality of Linked Datasets , in accordance with the specific application requirements. In this scenario, this work proposes an approach, called QualityStamp, to evaluate the quality of Linked Datasets for Domain Specific Applications. The proposed approach defines five quality criteria (availability, response time, queueing delay, completeness and interlinking), whose objective is to evaluate three characteristics of Linked Datasets: (i) performance, (ii) the ability to answer to a set of queries and (iii) the degree of interlinking between datasets. The quality assessment is guided by the application’s requirements, i.e., data requirements and non-functional requirements, which are represented by a set of queries and by quality criteria respectively. To help matters, at evaluation time, a domain expert (DE) should choose the quality criteria to be used in order to evaluate the candidate linked datasets. As a result of the evaluation, a global measure is generated, which is used to provide a ranking among the candidate linked datasets. In this work, we describe the approach and some experiments performed to evaluate the proposed approach .

Key-Words: Linked Data. Linked Datasets. Information Quality. Assessment. Domain Specific Application. Application Requirements.

(10)

L

ISTA DE

F

IGURAS

Figura 2.1 – Linked Data cloud em Abril de 2014. ... 21

Figura 2.2 – Recursos interligados no modelo RDF. ... 25

Figura 2.3 – Consulta select SPARQL sobre o endpoint IEEE. ... 27

Figura 2.4 – Resultado da consulta select SPARQL. ... 27

Figura 2.5 – Matriz de Decisão e vetor de pesos. ... 33

Figura 2.6 – Matriz de Decisão normalizada pelo método SAW. ... 34

Figura 2.7 – Matriz de Decisão normalizada utilizando o método TOPSIS e normalizada ponderada ... 36

Figura 2.8 – Hierarquia de objetivos no método AHP. ... 37

Figura 3.1 – Workflow da metodologia de avaliação da qualidade do dado... 46

Figura 3.2 - Ilustração do processo de Fusão de Dados. ... 50

Figura 3.3 – Impacto da avaliação de qualidade no processo de integração de dados. ... 50

Figura 3.4 – Grafo exemplo, triplas e documentos... 51

Figura 3.5 – Consulta ao grafo exemplo com dois padrões de triplas. ... 51

Figura 4.1 – Etapas básicas do processo QualityStamp... 58

Figura 4.2 – Consulta SPARQL que retorna todos os títulos de artigos por autor. ... 65

Figura 4.3 – Consulta SPARQL que retorna todos os títulos de journals. ... 65

Figura 4.4 – Exemplo de links RDF. ... 74

Figura 5.1 – Arquitetura da QualityStamp... 87

Figura 5.2 – Tela inicial da ferramenta... 88

Figura 5.3 – Crawler que testa a descoberta e disponibilidade dos endpoints. ... 90

Figura 5.4 – Inserção do nome da aplicação, domínio e linked datasets candidatos. ... 91

Figura 5.5 – Exemplos de Consultas da Aplicação Frevo. ... 91

Figura 5.6 – Editor de requisitos de qualidade. ... 92

(11)

L

ISTA DE

Q

UADROS

Quadro 2.1 – Critérios de qualidade para linked datasets segundo Zaveri et al., (2012) .. 29

Quadro 2.2 – Classificação das fontes segundo o método SAW... 35

Quadro 2.3 – Classificação das fontes segundo o método TOPSIS. ... 36

Quadro 2.4 – Matriz de comparação entre os pares de critérios. ... 38

Quadro 2.5 – Matriz de comparações normalizada ... 38

Quadro 2.6 – Matriz da completude das fontes ... 38

Quadro 2.7 – Matriz completude das fontes normalizada ... 39

Quadro 2.8 – Matriz dos pesos de relevância de todos os critérios e fontes. ... 39

Quadro 2.9 – Classificação das fontes segundo o método AHP. ... 39

Quadro 2.10 – Soluções otimizadas para cada fonte. ... 40

Quadro 2.11 – Classificação das fontes segundo o método DEA. ... 41

Quadro 2.12 – Rankings das Fontes de dados ... 41

Quadro 3.1 – Critérios de qualidade associados a problemas de qualidade. ... 47

Quadro 3.2 – Ligações das variáveis, incluindo as triplas e documentos que contribuem para as ligações. ... 51

Quadro 3.3 – Quadro comparativo entre os trabalhos relacionados ... 55

Quadro 4.1 – Consultas existentes no conjunto QA de uma aplicação hipotética. ... 69

Quadro 4.2 – Consultas ASK formadas a partir de PTA.. ... 69

Quadro 4.3 – Resultado da submissão das consultas ASK SPARQL. ... 69

Quadro 4.4 – Conjunto QA de uma aplicação hipotética. ... 71

Quadro 4.5 – Conjunto de consultas ASK SPARQL para completude de literal. ... 72

Quadro 4.6 – Resultados das consultas ASK SPARQL para completude de literal. ... 72

Quadro 4.7– Conjunto QA de uma aplicação hipotética. ... 73

Quadro 4.8 – Conjunto de consultas ASK SPARQL para completude de instância. ... 73

Quadro 4.9 – Resultados das consultas ASK SPARQL para completude de instância... 73

Quadro 4.10 – Grau de interlinking do DBpedia... 76

Quadro 4.11 - Exemplos de consultas da aplicação Frevo ... 77

Quadro 4.12 – Critérios de qualidade e respectivos pesos definidos. ... 77

Quadro 4.13 – Formação das consultas para a etapa de preparação de requisitos. ... 78

Quadro 4.14 – Escores da completude ... 79

Quadro 4.15 – Escores dos Critérios de Qualidade ... 79

Quadro 4.16 – Escores dos Critérios de QI normalizados utilizando o método SAW ... 80

Quadro 4.17 – Classificação dos linked datasets utilizando o método SAW. ... 80

Quadro 4.18 – 1ª normalização dos escores utilizando o método TOPSIS. ... 80

Quadro 4.19 – Normalização dos escores a partir do valor ideal. ... 80

Quadro 4.20 – Normalização dos escores a partir do pior valor. ... 81

Quadro 4.21 – Distâncias euclidianas. ... 81

Quadro 4.22 – Distância relativa da solução ideal e classificação dos linked datasets. .... 81

Quadro 4.23 – Matriz de comparação entre os pares de critérios... 81

Quadro 4.24 – Matriz de comparação entre os pares de critérios normalizada. ... 82

(12)

Quadro 4.26 – Classificação dos linked datasets utilizando o método AHP. ... 82

Quadro 4.27 – Eficiência do linked dataset ACM. ... 83

Quadro 4.28 – Eficiência do linked dataset DBLP. ... 83

Quadro 4.29 – Eficiência do linked dataset IEEE. ... 83

Quadro 4.30 – Classificação dos linked datasets utilizando o método DEA. ... 83

Quadro 4.31 – Comparação entre as classificações de cada método... 84

Quadro 4.32 – Quadro comparativo dos trabalhos relacionados com a abordagem QualityStamp ... 84

Quadro 5.1 – Conjunto de consultas QA para uma aplicação no domínio de dados bibliográficos. ... 94

Quadro 5.2 – Classificação manual dos endpoints que respondem a consulta q1 utilizando SA. ... 95

Quadro 5.3 – Classificação na abordagem para q1 utilizando SA. ... 96

Quadro 5.4 – Comparação entre a classificação manual e automática para q1. ... 96

Quadro 5.5 – Comparação entre a classificação manual e na abordagem para q4. ... 97

Quadro 5.6 – Comparação entre as classificações manual e automática considerando diferentes pesos para a completude utilizando a consulta q1. ... 99

Quadro 5.7 – Comparação entre as classificações manual e automática considerando diferentes pesos para a completude utilizando a consulta q4. ... 99

Quadro 5.8 – Avaliação automática de q1 utilizando 100% da completude de esquema. 101 Quadro 5.9 – Avaliação automática de q2 utilizando 100% da completude de esquema. 102 Quadro 5.10 – Avaliação automática de q3 utilizando 50% da completude de esquema e 50% da completude de literal. ... 103

Quadro 5.11 – Avaliação qualitativa de q4 utilizando 100% da completude de esquema.104 Quadro 5.12 – Avaliação qualitativa de q5 utilizando 100% da completude de esquema.105 Quadro 5.13 – Avaliação qualitativa utilizando as 5 consultas no melhor cenário. ... 107

Quadro 5.14 – Quadro comparativo entre a classificação automática com múltiplas consultas com a classificação automática que utiliza apenas a consulta q1. ... 107

(13)

L

ISTA DE

A

CRÔNIMOS

AHP – Analytic Hierarchy Process API – Application Programming Interface BGP – Basic Graph Pattern

DEA – Data Envelopment Analysis DMU – Decision Making Units HIT – Human Intelligent Task JSP – Java Server Pages

LDIF – Linked Data Integration Framework LOD – Linking Open Data

OWL – Ontology Web Language IQ – Information Quality

RDF – Resource Description Framework SAW – Simple Additive Weighting

SPARQL – SPARQL Protocol and RDF Query Language

TOPSIS – Technique for Order of Preference by Similarity to Ideal Solution URI – Universal Resource Identifier

(14)

S

UMÁRIO

INTRODUÇÃO ... 15

1.1 MOTIVAÇÃO ... 15

1.2 DEFINIÇÃO DO PROBLEMA,POSSÍVEL SOLUÇÃO E DESAFIOS ... 17

1.3 OBJETIVOS ... 17

1.4 CONTRIBUIÇÕES ESPERADAS ... 18

1.5 ESTRUTURA DA DISSERTAÇÃO ... 19

2. FUNDAMENTAÇÃO TEÓRICA ... 20

2.1 WEB SEMÂNTICA E LINKED DATA ... 20

2.2 ONTOLOGIAS E VOCABULÁRIOS ... 22

2.2.1 O MODELO RDF ... 24

2.2.2 ALINGUAGEM SPARQL ... 26

2.3 QUALIDADE DA INFORMAÇÃO ... 28

• MÉTRICAS PARA CRITÉRIOS DE QI... 30

2.4 SELEÇÃO DE FONTES DE DADOS ... 31

2.4.1 AVALIAÇÃO DA QUALIDADE EM FONTES DE DADOS ... 32

2.4.2 MÉTODOS PARA TOMADA DE DECISÃO... 33

• PONDERAÇÃO ADITIVA SIMPLES ... 33

• TÉCNICA PARA ORDENAR PREFERÊNCIAS POR SIMILARIDADE COM A SOLUÇÃO IDEAL ... 35

• PROCESSO DE ANÁLISE HIERÁRQUICA ... 37

• _A_{NÁLISE POR}_E_{NVOLTÓRIA DE}_D_ADOS ... 39

2.4.3 COMPARAÇÃO ENTRE OS MÉTODOS ... 41

2.5 CONSIDERAÇÕES ... 42

3. TRABALHOS RELACIONADOS... 43

3.1 AVALIANDO A MATURIDADE DA WEB DE DADOS ... 43

3.2 METODOLOGIA PARA AVALIAÇÃO DA QUALIDADE DE RECURSOS DO DBPEDIA ... 45

3.3 OFRAMEWORK SIEVE PARA AVALIAÇÃO DE LINKED DATASETS ... 48

3.4 CATEGORIAS DE COMPLETUDE PARA AVALIAÇÃO DE CONSULTAS SOBRE LINKED DATA ... 50

3.5 ANÁLISE COMPARATIVA ENTRE OS TRABALHOS RELACIONADOS ... 54

4. QUALITYSTAMP – UMA ABORDAGEM PARA AVALIAÇÃO DA QUALIDADE DE LINKED DATASETS PARA APLICAÇÕES DE DOMÍNIO ESPECÍFICO ... 57

4.1 DEFINIÇÃO DO PROBLEMA ... 57

4.2 VISÃO GERAL DA ABORDAGEM QUALITYSTAMP... 58

4.3 CRITÉRIOS DE QUALIDADE DA INFORMAÇÃO E MÉTRICAS DE AVALIAÇÃO ... 60

_4.3.1_D_{ISPONIBILIDADE}_(A_VAILABILITY_{)... 61}

_4.3.2_T_{EMPO DE}_R_ESPOSTA_(R_ESPONSE_T_IME_{) ... 62}

_4.3.3_A_{TRASO DE}_F_ILA_(Q_UEUEING_D_ELAY_{) ... 63}

_4.3.4_C_OMPLETUDE_(C_OMPLETENESS_{) ... 64}

• _C_{OMPLETUDE DO}_E_SQUEMA_(S_CHEMA_C_OMPLETENESS_{) ... 67}

• _C_{OMPLETUDE DE}_D_ADO_(D_ATA_C_OMPLETENESS_{) ... 70}

• COMPLETUDE DE LITERAL (LITERAL COMPLETENESS) ... 70

(15)

4.3.5 INTERLINKING ... 74

4.4 EXEMPLO ... 76

4.5 COMPARAÇÃO DA ABORDAGEM COM OS TRABALHOS RELACIONADOS ... 84

5. IMPLEMENTAÇÃO E EXPERIMENTOS ... 87

5.1 FERRAMENTA QUALITYSTAMP ... 87

5.2 EXPERIMENTOS ... 93

• _D_{ATASETS CANDIDATOS} ... 93

• _R_{EQUISITOS NÃO FUNCIONAIS}... 93

• REQUISITOS DE DADOS ... 93 5.2.1 EXPERIMENTO 1 ... 95 ANÁLISE DO EXPERIMENTO 1 ... 98 5.2.2 EXPERIMENTO 2 ... 98 _A_{NÁLISE DO}_E_XPERIMENTO_{2 ... 100} _5.2.3_E_XPERIMENTO_{3 ... 100} _A_{NÁLISE DO}_E_XPERIMENTO_{3 ... 105} _5.2.4_E_XPERIMENTO_{4 ... 106} _A_{NÁLISE DO}_E_XPERIMENTO_{4 ... 110} _5.3_C_{ONSIDERAÇÕES} ... 111

6. CONCLUSÕES E TRABALHOS FUTUROS ... 112

6.1 CONTRIBUIÇÕES DA DISSERTAÇÃO ... 112

6.2 TRABALHOS FUTUROS ... 113

REFERÊCIAS ... 115

APÊNDICE A – ENDPOINTS E CLASSIFICAÇÃO MANUAL POR CONSULTA ... 118

A1LISTA DE ENDPOINTS UTILIZADOS NOS EXPERIMENTOS ... 118

A2CLASIFICAÇÃO MANUAL DOS ENDPOINTS PELA CONSULTA Q1 ... 119

A7CLASIFICAÇÃO MANUAL DOS ENDPOINTS UTILIZANDO TODAS AS CONSULTAS ... 124

APÊNDICE B – EXPERIMENTO 1 ... 125

B1 RESULTADOS E ANÁLISES DA CONSULTA Q1. ... 125

APÊNDICE C – EXPERIMENTO 2 ... 135

C1 RESULTADOS E ANÁLISES DA CONSULTA Q1. ... 1355

(16)

1. I

NTRODUÇÃO

Este capítulo fornece uma visão geral desta pesquisa e apresenta o contexto no qual este trabalho está inserido. Inicialmente, é mostrada a motivação do estudo e a definição do problema abordado. Depois, são elencados os objetivos pretendidos, seguindo por uma discussão sobre as contribuições esperadas deste trabalho. Por fim, é apresentada a descrição da estrutura desta dissertação.

1.1 MOTIVAÇÃO

A Web vem se tornando um vasto repositório de dados estruturados, semi ou não estruturados, que cobrem os mais variados domínios do conhecimento. Na Web atual (também conhecida por Web de documentos) não existe uma padronização no formato para publicação de conteúdo, ou seja, cada indivíduo, grupos de pesquisa ou empresas optam por seguir os padrões e formatos mais adequados à sua necessidade. Esta flexibilidade contribui para o aumento no montante de dados disponíveis na Web. Contudo, essa falta de padronização dificulta o consumo destes dados por potenciais usuários e se torna um empecilho para criação de novas aplicações que utilizam dados de fontes de dados que possuem diferentes formatos e esquemas. Neste contexto, Tim Berners-Lee (2006) propôs as tecnologias norteadoras da Web Semântica.

A Web Semântica é considerada uma extensão da Web atual cujo objetivo principal é facilitar a interpretação e integração dos dados na Web (Cunha et al., 2011). Como parte do desenvolvimento da Web Semântica, surgiu o conceito de Linked Data (dados interligados), que pode ser definido como um conjunto de boas práticas para publicar e conectar dados estruturados na Web, com o intuito de criar uma “Web de Dados” (Cunha et al., 2011; Bizer et al., 2009). Sabe-se que o dado isolado não tem muito valor, entretanto, quando combinado, pode ter um valor imensurável.

Dentre as práticas para publicar dados no padrão Linked Data, Heath e Bizer (2011) sugerem três premissas: (i) usar URIs (Universal Resource Identifier) para identificação dos recursos; (ii) utilizar tecnologias, como RDF1 (Resource Description Framework) e SPARQL2 (SPARQL Protocol and RDF Query Language), para descrição e consulta a estes recursos, respectivamente; e (iii) reaproveitar URIs de forma que seja possível estabelecer

1

http://www.w3.org/RDF/ 2

(17)

ligações entre os dados disponíveis, com a finalidade de possibilitar a navegação por meio destas ligações.

Partindo destes princípios básicos, a Web de Dados possibilita uma série de novas aplicações. No entanto, diferente das aplicações que utilizam um conjunto fixo de fontes de dados existentes na Web 2.0 (também chamadas de mashups), as aplicações Linked Data operam no topo de um espaço global de dados interligados. Isto possibilita oferecer respostas mais completas à medida que novas fontes de dados aparecem na Web (Bizer et al., 2009). Entre as aplicações Linked Data destacam-se dois tipos: (i) as aplicações genéricas que utilizam informações de múltiplos domínios e (ii) as aplicações de domínio específico que utilizam dados de um determinado domínio, como, por exemplo “Saúde”, “Educação” (Heath e Bizer, 2011).

Para este trabalho destacam-se as aplicações de domínio específico (Domain-Specific Application), ou seja, aplicações que cobrem as necessidades de comunidades de usuários interessados em um domínio de dados em particular (Heath e Bizer, 2011), como, por exemplo, “saúde”, “música". Exemplos de aplicações de domínio específico são: (i) aplicações que contribuem para o aumento na transparência do governo, disponibilizando uma gama de informações à população como, por exemplo, o SBA Loan Search3, um aplicativo que exibe para a população informações sobre empréstimos do governo dos EUA, concessões e incentivos fiscais; (ii) linked data mashups – aplicativos que mesclam informações de suas bases de dados com informações da Web de Dados como, por exemplo, o Find Properly4, um serviço para novos moradores de Londres. Nele, é possível descobrir as propriedades com os trajetos mais curtos para o local de trabalho. Este mashup utiliza informações do dataset 2011 Census5 para filtrar a busca por taxa de criminalidade e espaços verdes.

Existem vários movimentos e projetos na comunidade Linked Data que investem na definição de padrões para publicação de dados na Web. Dentre eles, destaca-se o LOD6 (Linking Open Data), o qual propõe a utilização de dados RDF para descrever recursos sobre diversos assuntos (Oliveira, 2012). Este projeto é um esforço da comunidade de pesquisa para publicar conjuntos de dados de licença aberta seguindo os princípios Linked Data. O conteúdo da nuvem de dados interligados é de natureza diversificada, compreendendo dados sobre localização geográfica, pessoas, empresas, publicações científicas, filmes, música, genes, proteínas, estudos clínicos, dados estatísticos entre outros (Bizer et al., 2009).

3 http://www.data.gov/applications/ 4 http://www.findproperly.co.uk/ 5 http://data.gov.uk/dataset/2011_census_ 6 http://linkeddata.org/

(18)

O interesse na publicação de linked datasets é crescente, uma vez que a natureza estruturada da informação disponibilizada incrementa o nível semântico do dado, facilitando sobremaneira o processamento dos dados por agentes de software (Heath e Bizer, 2011). Assim, uma aplicação que utiliza linked datasets pode se beneficiar dispondo de mais informações acerca de seu domínio.

Atualmente, existem mais de quinhentas fontes de dados que seguem os princípios Linked Data (também chamados neste trabalho de linked datasets), publicadas por colaboradores para a comunidade do LOD (Buil-Aranda et al., 2013). Este crescimento na disponibilidade dos dados é outro fator motivador para o desenvolvimento de aplicações que fazem uso de múltiplos linked datasets (Lóscio et al., 2012). Contudo, esta estrutura crescente da Web de Dados traz a tona um grande desafio: como encontrar os melhores linked datasets para uma aplicação de domínio específico?

1.2 DEFINIÇÃO DO PROBLEMA

Considerando uma aplicação Linked Data de domínio específico onde é possível identificar seus requisitos e, considerando também, a estrutura da Web de Dados onde é possível elencar potenciais linked datasets candidatos que serão utilizados por esta aplicação, como elencar quais os melhores candidatos para a aplicação? Assim, o problema abordado nesta dissertação é a escolha de melhores linked datasets dentre um conjunto de linked datasets candidatos (SA) para uma aplicação Linked Data de domínio específico (ALE) considerando um conjunto de Requisitos da Aplicação (RAPP).

De maneira mais específica, neste trabalho estamos interessados em como avaliar a qualidade de linked datasets a fim de auxiliar a escolha de melhores linked datasets dentre um conjunto de linked datasets candidatos para uma aplicação Linked Data de domínio específico. No contexto desta dissertação, o termo Qualidade da Informação (QI) é associado à descrição geral de “adequação ao uso” (Zaveri et al., 2012; Wang e Strong, 1996). A avaliação da QI é um conceito dependente de múltiplos critérios (ou dimensões) e, principalmente, dependente da tarefa que se têm em mãos (Naumann et al., 1998) como, por exemplo, as consultas que uma aplicação submete numa fonte de informação.

1.3 OBJETIVOS

Este trabalho tem como objetivo geral a especificação de uma abordagem que faz uso de critérios de QI no processo de avaliação da qualidade dos linked datasets que serão utilizados

(19)

em aplicações de domínio específico. Neste processo também são considerados critérios específicos para o contexto de Linked Data. Assim, um Especialista no Domínio irá especificar um conjunto de critérios de QI (CE) de acordo com os requisitos da aplicação. O especialista no domínio deve conhecer a proposta da aplicação e seus requisitos para elencar corretamente quais critérios de qualidade devem ser utilizados. O uso dos critérios de QI sem uma calibragem de peso adequada pode gerar resultados distantes dos requisitos da aplicação que está sendo avaliada. Como resultado da avaliação da QI, será gerada uma classificação ordenada dos linked datasets candidatos. Particularmente, elencam-se os principais objetivos específicos desta dissertação:

•_{Levantamento do estado da arte dos critérios de QI, verificando possíveis critérios} candidatos para a abordagem proposta neste trabalho.

•_{Especificação de uma abordagem para avaliação da QI de linked datasets.} •_{Definição de métricas para cada critério de QI utilizado na abordagem proposta.} •_{Implementação de um protótipo e realização de experimentos para avaliação da}

abordagem proposta.

1.4 CONTRIBUIÇÕES ESPERADAS

A primeira contribuição é a especificação da abordagem QualityStamp para avaliação da QI de linked datasets que considera os requisitos da aplicação. Outra contribuição destacada na solução proposta é a utilização de um repositório de critérios extensível e adaptável que contém critérios de QI para avaliação de linked datasets, passíveis de serem configurados pelo especialista no domínio da aplicação. Para isso, considera-se que toda aplicação pertence a um domínio de dados, como, por exemplo, dados bibliográficos e dados governamentais. A proposta de ter um repositório adaptável é justificada pelo fato de existirem diversos domínios do conhecimento, onde um determinado critério de qualidade pode ser considerado mais importante pelo especialista naquele domínio do que outro critério.

Como principais diferenciais da abordagem, destacam-se: (i) tem como foco a aplicação, ou seja, considera os requisitos da aplicação na avaliação da qualidade das fontes de dados; (ii) faz uso de um repositório de critérios extensível e configurável e; (iii) é adaptável a diferentes domínios do conhecimento.

(20)

•_{Especificação de uma abordagem para avaliação da qualidade de linked datasets que} considera os requisitos da aplicação e o conhecimento do especialista para classificação dos linked datasets.

Geração de um repositório de critérios de QI contendo métricas reutilizáveis.

•_{Criação de uma ferramenta a partir da implementação da abordagem proposta.}

•_{Realização de experimentos com o protótipo sobre fontes de dados pertencentes ao} domínio de dados bibliográficos.

1.5 ESTRUTURA DA DISSERTAÇÃO

Além do presente capítulo, este trabalho está dividido como segue:

•_{O Capítulo 2 introduz a fundamentação teórica acerca dos principais tópicos para o} desenvolvimento desta dissertação;

•_{O Capítulo 3 descreve os trabalhos relacionados;}

•_{O Capítulo 4 apresenta a abordagem proposta para a avaliação da qualidade de linked} datasets juntamente com a definição das métricas para critérios de QI;

•_{O Capítulo 5 discute o protótipo da abordagem desenvolvido e os experimentos que} foram realizados para sua avaliação;

(21)

2. F

UNDAMENTAÇÃO

T

EÓRICA

Este capítulo apresenta a fundamentação teórica sobre os principais tópicos de pesquisa relacionados ao desenvolvimento deste trabalho. Inicialmente, é abordada uma visão geral acerca da Web atual com o objetivo de introduzir o conceito de Web Semântica e os princípios Linked Data. Em seguida, são mostrados os conceitos de ontologias, o modelo RDF e a linguagem SPARQL. Em seguida o capítulo aborda conceitos sobre seleção de fontes e qualidade da informação. O capítulo mostra também a utilização de critérios de qualidade da informação para seleção de fontes de dados.

2.1 WEB SEMÂNTICA E LINKED DATA

A facilidade em publicar dados na Web utilizando as tecnologias URL7_{, HTTP e HTML,}

possibilitou a criação de um emaranhado de dados e informações de praticamente todas as áreas do conhecimento humano. Contudo, a liberdade na escolha de formatos para publicação de dados, somado a uma falta de padronização, geraram grandes quantidades de informações que começaram a existir em silos “isolados”. Neste panorama, os silos de informação não possuem conexões entre eles, e, para que isto ocorra, é necessário um esforço computacional inicial para compreender o formato em que as informações foram publicadas em cada local. A heterogeneidade e a falta de estrutura dos dados publicados na Web tornaram-se um empecilho natural para a integração de dados armazenados em fontes distintas (Bizer et al., 2009). Assim, em 2001, Tim Berners-Lee propôs melhorar a estrutura do conteúdo da Web provendo mais significado aos dados. Esta visão mais estruturada da Web foi denominada de Web Semântica (Semantic Web) (Berners-Lee et al., 2001). Na Web Semântica, os dados possuem uma rica descrição semântica acerca do que eles representam e isso permite uma interpretação por agentes de software da informação publicada. No entanto, essa interpretação facilitada só pode ser alcançada a partir de uma padronização nas tecnologias utilizadas para publicar as informações.

Além das tecnologias que fazem parte da Web Semântica, Berners-Lee (2006) também propôs os princípios de Linked Data. Este princípios visam a geração de uma Web de Dados, onde os dados estão disponíveis em formatos estruturados e estão ligados entre si, possibilitando uma navegação entre dados disponíveis na Web. Estes princípios são:

(i) Usar URIs para nomear recursos;

7

(22)

(ii) Usar HTTP URIs para que as pessoas possam consultar esses nomes;

(iii) Quando alguém consultar uma URI, prover informação útil usando os padrões RDF e SPARQL;

(iv) Incluir links para outras URIs para que seja possível descobrir mais recursos.

A sistemática para criação de dados que seguem os princípios Linked Data geralmente segue duas possíveis situações: (i) o dado já é concebido no formato RDF, assim não é necessário passar por nenhuma etapa de transformação; ou (ii) existe uma identificação inicial de dados já publicados em uma ou mais fontes de dados para posterior transformação ou mapeamento em representações no formato padrão RDF.

O quarto princípio Linked Data sugere que os dados devem possuir links que os liguem a outros recursos com o objetivo de encontrar mais informações associadas a estes recursos. A ideia é que os conjuntos de dados interligados não existam apenas isoladamente, mas passem a fazer parte de uma nuvem de dados interligados. A Figura 2.1 mostra a nuvem Linked Data (Linked Data cloud). Esta nuvem disponibiliza conjuntos de dados interligados segmentados por domínios, onde cada cor agrupa linked datasets de um dado domínio do conhecimento.

Figura 2.1 – Linked Data cloud em Abril de 2014.

Fonte: Cyganizak e Jentzsch, 2014.

A nuvem Linked Data é gerenciada pelo projeto LOD. Este projeto é uma das principais iniciativas na comunidade Linked Data para publicar dados interligados na Web

(23)

(Heath e Bizer, 2011). Os dados interligados passam a fazer parte da nuvem Linked Data. Durante os últimos anos, houve um crescente aumento no número de provedores de dados que adotaram os princípios Linked Data para publicar e conectar dados de forma estruturada na Web (Hartig e Langegger, 2010). Os provedores de dados podem ser um único indivíduo, grupos de pesquisa ou qualquer outra entidade publicadora de dados interligados.

Para facilitar e melhorar a exploração dos dados na Web de Dados é possível utilizar conhecimento semântico proveniente de vocabulários e ontologias na publicação dos mesmos (Gruber, 1995). Além disso, o reuso de termos de vocabulários é uma recomendação na comunidade Linked Data para a criação de novas fontes de informação.

2.2 ONTOLOGIAS E VOCABULÁRIOS

Para a Ciência da Computação, define-se ontologia como uma especificação explícita e formal de uma conceituação compartilhada (Borst, 1997; Gruber, 1995). Nesta definição, especificação explícita diz respeito aos conceitos, propriedades, relações, funções, restrições e axiomas do domínio que devem ser explicitamente definidos; formal significa legível para computadores; conceituação se refere a um modelo abstrato de algum fenômeno do mundo real; e compartilhada significa que pode ser de conhecimento consensual. Desta forma, uma ontologia descreve os conceitos e relacionamentos existentes entre os conceitos em um dado domínio ou universo de discurso que é normalmente de conhecimento comum. A ontologia consiste de um conjunto de elementos e termos para descrição de recursos, tais como classes, propriedades e indivíduos de uma ontologia.

Uma classe é um conceito que representa um conjunto de elementos do mundo real, por exemplo, Professor. O uso da palavra conceito é às vezes utilizado no lugar de classe. As classes são representações concretas de conceitos. Cada instância de uma classe é uma representação de um conceito desta classe, logo, é possível dizer que, João é um Professor; onde João é uma instância da classe Professor. A informação deve ser descrita de forma que seja legível a um agente de software. Para que um agente de software possa entender e interpretar um dado, é necessário processar a semântica envolvida naquele dado, num determinado contexto. Neste escopo, semântica diz respeito à atribuição de significado a elementos, dados ou expressões que precisem ser interpretados numa dada situação (Souza, 2009).

(24)

Existem várias linguagens para definição de ontologias, porém a linguagem OWL8 (Ontology Web Language) é a linguagem padrão proposta pelo W3C. Segundo Lóscio e Wagner Filho (2009), os seus idealizadores visavam prover uma linguagem que possuísse a expressividade necessária tanto na descrição de ontologias no suporte à Web Semântica, como em relacionamentos entre domínios e suas propriedades. Com a OWL, é possível realizar inferências a partir dos conceitos e relacionamentos existentes entre esses conceitos. Algumas características fundamentais da linguagem OWL são: (i) restrições de propriedades relacionadas aos possíveis valores assumidos, por exemplo, podemos expressar que um time de futebol exige, no mínimo, onze jogadores para disputar uma partida; (ii) disjunção de classes, por exemplo, gato e cachorro são dois conceitos disjuntos, pois um animal não pode assumir a forma de um gato e um cachorro ao mesmo tempo e (iii) combinação entre classes, onde pode-se criar novos conceitos utilizando uma combinação de conceitos já especificados usando, por exemplo, a união ou interseção destes.

Um vocabulário define um conjunto de termos de um domínio específico que pode ser formalmente representado por meio de ontologias. Definem-se termos como as palavras que representam as classes e propriedades que compõem um dado domínio. Por exemplo, se Professor é um conceito e existe um vocabulário para o meio acadêmico que pode representá-lo, então o Professor é um termo deste vocabulário. Como já supracitado, sempre que possível, devem-se utilizar termos de vocabulários conhecidos para representação de dados.

Por exemplo, numa fonte de dados A, o recurso João é uma instância do conceito Professor. Assim, de acordo com um vocabulário hipotético que descreve o meio acadêmico, o recurso João pode ser descrito pelo termo Professor deste vocabulário. Este mesmo recurso João, também pode ser representado numa fonte de dados B, por meio de outro vocabulário hipotético que descreva o domínio de dados bibliográficos. Neste caso, João pode ser descrito pelo termo Autor, que representa o autor de uma dada publicação.

Comunidades diferentes têm preferências específicas sobre qual vocabulário utilizar para publicar seus dados. Porém, apesar desta abertura, é considerada uma boa prática o reuso de termos de vocabulários conhecidos, tais como FOAF9, SIOC10, SKOS11, DOAP12, vCard13, Dublin Core14, OAI-ORE15 ou GoodRelations16, sempre que possível, a fim de tornar mais 8 http://www.w3.org/2001/sw/wiki/OWL 9 http://www.foaf-project.org/ 10 http://rdfs.org/sioc/spec/ 11 http://www.w3.org/2004/02/skos/ 12 https://github.com/edumbill/doap/wiki 13 http://www.w3.org/TR/vcard-rdf/ 14 http://dublincore.org/

(25)

fácil para as aplicações o processamento dos dados (Bizer et al., 2009). No caso dos termos dos vocabulários conhecidos não fornecerem as condições necessárias para a representação semântica desejada, os publicadores de dados podem criar novos termos (Bizer et al., 2009).

O terceiro princípio Linked Data define o modelo de dados RDF para publicação de dados. As próximas seções discutem o modelo de dados RDF e a linguagem de consulta SPARQL.

2.2.1 O MODELO RDF

RDF é um modelo para representar informações sobre recursos. Ele foi particularmente desenvolvido para representar metadados sobre os recursos da Web. Exemplos de recursos são: pessoas, instituições ou animais. Ao generalizar o conceito de um recurso, RDF também pode ser usado para representar informações (atributos) sobre as “coisas” que podem ser identificadas na Web, entre estas “coisas”, exemplificam-se: as informações sobre os itens disponíveis a partir de lojas on-line (especificações do produto, preços e disponibilidade) ou a descrição das preferências de um usuário para entrega de informações (Manola e Miller, 2013). Assim, os recursos que são descritos utilizando o modelo de dados RDF, chamamos de recurso RDF.

Pode-se entender o RDF como um modelo baseado em grafos, onde a descrição dos dados é representada por meio de nós e arestas (os nós representam os recursos, e as arestas, os relacionamentos ou predicados entre esses recursos). O RDF é o mecanismo padrão que permite a especificação da existência e significado das ligações (links) entre objetos descritos nos diversos conjuntos de dados interligados (Heath e Bizer, 2011). Todo recurso presente num linked dataset deve ser descrito por meio de uma URI.

A descrição de recursos utilizando o RDF ocorre por meio de sentenças ou triplas no formato (S, P, O). Uma tripla é interpretada como S possui P com valor O, onde: (i) S é o sujeito da tripla e tem como valor o recurso sobre o qual se quer escrever uma sentença; (ii) P é o predicado e especifica um relacionamento entre um sujeito e um objeto. O predicado é especificado por meio de propriedades, que são relações binárias geralmente nomeadas por um verbo e permitem relacionar um recurso a dados ou a outros recursos. Uma propriedade também é um recurso e, portanto, deve ter um identificador; e (iii) O é o objeto, designado por um recurso ou literal (Souza, 2009).

15

http://www.openarchives.org/ore/1.0/vocabulary 16

(26)

Em contraste com os links HTML que, em geral, deixam para o usuário a inferência da natureza do relacionamento entre os documentos, o modelo de dados RDF permite que a publicação dos dados deixe explícita a natureza e a semântica do relacionamento. Isso possibilita que diferentes linked datasets possam interligar seus recursos por meio de propriedades. Um exemplo de como esta interligação entre recursos pode ser realizada é utilizar a propriedade owl:sameAs num predicado de uma dada tripla que possui dois recursos em namespaces diferentes na posição do sujeito e objeto. Esta propriedade define que um recurso num linked dataset A é o mesmo recurso existente num linked dataset B. Ambos os recursos, apesar de serem semanticamente iguais, estão sendo representados por meio de diferentes vocabulários em diferentes datasets (e por portanto, possuem diferentes namespaces).

Os links RDF podem ser classificados em internos e externos. Um link RDF interno conecta dois recursos presentes no mesmo linked dataset. Logo, as URIs do sujeito e do objeto estão no mesmo namespace. Por exemplo, a tripla “http://biglynx.co.uk/people/matt-briggs http://xmlns.com/foaf/0.1/knows http://biglynx.co.uk/people/dave-smith interliga o recurso Matt Briggs ao Dave Smith por meio da propriedade do vocabulário FOAF17 foaf:knows (Heath e Bizer, 2011).

Links RDF externos conectam recursos em diferentes linked datasets e as URIs do sujeito e do objeto possuem diferentes namespaces. A Figura 2.2 mostra um exemplo de link RDF externo, onde dois recursos que representam “Tim Berners-Lee” são interligados por meio da propriedade owl:sameAs. Os links RDF externos são cruciais para a Web de Dados, pois são eles que conectam dados de diferentes linked datasets para formar um espaço global de dados (Heath e Bizer, 2011).

Figura 2.2 – Recursos interligados no modelo RDF.

Fonte: Dados da pesquisa, 2014.

Um linked dataset é composto por várias triplas RDF. Um conjunto de triplas RDF formam um ou mais grafos RDF. A linguagem padrão para consultar grafos RDF é a SPARQL. A próxima seção apresenta os principais pontos desta linguagem.

17

(27)

2.2.2 ALINGUAGEM SPARQL

SPARQL é a linguagem padrão para consultar dados armazenados em grafos RDF (Pérez e Arenas, 2009). Um linked dataset é uma fonte de dados (ou conjunto de dados) publicados segundo o modelo RDF. Cada linked dataset possui uma interface de acesso disponível tanto para usuários, quanto para aplicações clientes (uma aplicação que utiliza uma API para consumir dados da Web de Dados) por meio de uma URL denominada de endpoint SPARQL. Prud'hommeaux e Buil Aranda (2014) definem um endpoint SPARQL como a URL para o qual um serviço SPARQL fica aguardando por consultas de clientes. O objetivo de um endpoint SPARQL é facilitar o processamento de consultas SPARQL.

Uma consulta na linguagem SPARQL pode ser classificada em quatro tipos: (i) SELECT – utilizada para especificar que os resultados serão retornados para o usuário em forma de tabela; (ii) CONSTRUCT – utilizada para retornar um novo grafo RDF construído por meio de templates, onde suas variáveis são substituídas por seus valores; (iii) ASK – verifica se há pelo menos uma resposta à consulta e retorna resultados booleanos como “true” ou “false”, indicando se uma consulta está associada a alguma tripla; e (iv) DESCRIBE – retorna um novo grafo RDF contendo recursos associados.

Segundo Pérez et al., (2006) SPARQL utiliza o casamento de padrões de grafos para a realização das consultas. Estes padrões de grafos são definidos recursivamente, sendo possível construir padrões complexos a partir dos padrões mais simples, em conjunto com os operadores da linguagem SPARQL. Dentre eles, destacam-se: FILTER – utilizado para adicionar restrições aos padrões de grafos, DISTINCT – remove resultados duplicados, OPTIONAL - utilizado para tornar uma parte do padrão opcional, LIMIT - utilizado para limitar o número de resultados retornados, ORDER BY - ordena a saída em ordem alfabética.

Pérez et al., (2006) ainda afirmam que todo padrão de tripla é um padrão de grafo. Um padrão de tripla é algo semelhante a uma tripla formada por sujeito, predicado e objeto. A única diferença entre uma tripla e um padrão de tripla é o fato de um padrão de tripla admitir a existência de variáveis em seus componentes. Os autores também destacam o conceito de BGP (Basic Graph Pattern), que é o conjunto de padrões de tripla (ou grafos) que compõem a consulta SPARQL.

A Figura 2.3 mostra um exemplo de consulta SPARQL realizada sobre o endpoint http://ieee.rkbexplorer.com/sparql/. A consulta tem como objetivo recuperar informações de títulos de artigos do autor Adrian Perring. É possível identificar três padrões de triplas nesta consulta. O primeiro procura por triplas que possuam o predicado akt:has-title. Já o segundo

(28)

diz que, as triplas também devem possuir a propriedade akt:has-author. E o terceiro padrão de tripla especifica que o autor procurado deve possuir o nome Adrian Perrig.

Figura 2.3 – Consulta select SPARQL sobre o endpoint IEEE.

A consulta foi realizada em um linked dataset pertencente ao domínio de dados bibliográficos e utiliza o vocabulário da ontologia AKT18. A resposta é recebida no formato de uma tabela, como mostra a Figura 2.4.

Figura 2.4 – Resultado da consulta select SPARQL.

O esforço da comunidade Linked Data na padronização de modelos e linguagens para consumo e publicação de dados interligados é contínuo, porém, ainda existem desafios a serem superados. Por exemplo, dados extraídos de fontes semiestruturadas ou mesmo não estruturadas, a exemplo do DBpedia19, linked dataset obtido a partir da extração das informações da Wikipédia20, frequentemente apresentam inconsistências como dados mal formatados e informações incompletas (Zaveri et al., 2012). Neste contexto, a seção a seguir apresenta os principais conceitos sobre a Qualidade da Informação e critérios de QI.

18 http://www.aktors.org/ontology/portal# 19 http://dbpedia.org/About 20 http://www.wikipedia.org/

(29)

2.3 QUALIDADE DA INFORMAÇÃO

A Qualidade da Informação (QI) é classicamente definida como um conjunto de critérios (ou dimensões) utilizados para indicar o grau de qualidade geral de uma informação obtida por um sistema (Wang e Strong, 1996; Batista, 2008). Na literatura, QI é amplamente definida como “adequação ao uso”, o que leva a considerar que a informação é apropriada se atende a um conjunto de requisitos estabelecidos, seja por um usuário ou por um conjunto de normas (ou uma tarefa). Desta forma, o valor da informação depende da sua utilidade (Wang e Strong, 1996; Naumann, 2002; Batista, 2008; Zaveri et al., 2012).

Wang e Strong (1996) propuseram um framework que capta critérios de QI. Foram utilizados 15 critérios de qualidade, agrupados em quatro categorias. Com a proposta de avaliar conjuntos de dados interligados, Zaveri et al., (2012) apresentaram uma pesquisa com uma extensão dos critérios elencados por Wang e Strong (1996). Foram elencados 26 critérios de qualidade (dois deles exclusivos para linked data – interlinking e performance) divididos em 6 categorias. O trabalho também reuniu um conjunto de métricas (objetivas e subjetivas) como forma de mensurar cada critério de qualidade. Métricas objetivas definem um método para avaliação do critério. Métricas subjetivas precisam da intervenção humana para mensurar o critério. O Quadro 2.1 apresenta os critérios de qualidade separados por suas categorias, segundo Zaveri et al., (2012).

Bizer (2007) classifica ainda os critérios de QI em três categorias diferentes das apresentadas por Zaveri et al. (2012). Estas três categorias variam de acordo com o tipo da informação que será utilizado para avaliar a qualidade do linked dataset:

(i) Baseado em Conteúdo (Content Based) – englobam critérios que avaliam o conteúdo da informação de todo o linked dataset, como por exemplo, compreensibilidade, interlinking;

(ii) Baseado no Contexto (Context Based) – critérios que focam no contexto da informação que foi reivindicada, ou seja, na informação que o usuário deseja, como por exemplo, completude do esquema, relevância;

(iii) Baseado em Classificação (Rating Based) – são critérios baseados em classificações gerais (aspectos) do linked dataset ou em informações do provedor de informações do linked dataset como, por exemplo, disponibilidade, tempo de resposta.

Alguns trabalhos estão sendo desenvolvidos com o intuito de melhorar a qualidade do conhecimento estruturado na Web de Dados (Assaf et al., 2012; Coletta et al., 2012). Porém,

(30)

a Qualidade da Informação ainda é avaliada sem seguir uma metodologia genérica. As soluções propostas, em geral, aplicam-se apenas à linked datasets específicos. Ferramentas e boas práticas são, portanto, requisitadas para ajudar consumidores da informação a avaliar a QI dos datasets que pretende utilizar (Assaf e Senart, 2012).

Quadro 2.1 – Critérios de qualidade para linked datasets segundo Zaveri et al., (2012)

Critérios Contextuais _{preferencias subjetivas do consumidor do dado.}Critérios dependentes do contexto e de

Completude

Montante de Dados

Relevância

Critérios de Confiança Critérios que mensuram o quão um linked dataset _{é confiável.}

Proveniência Verificabilidade Reputação Credibilidade Licenciamento Critérios Intrínsecos

Critérios independentes do contexto do usuário. Estes critérios focam em verificar se a informação contida no linked dataset representa

corretamente o elemento do mundo real e se é logicamente correta por si só.

Precisão

Objetividade

Validade dos Documentos

Interlinking

Consistência

Concisão

Critérios de Acessibilidade

Envolvem aspectos relacionados à forma com que o dado pode ser acessado e recuperado.

Disponibilidade Desempenho Segurança Tempo de Resposta Critérios Representacionais

Critérios que capturam aspectos relacionados à estrutura do dado. Concisão Representacional Consistência Representacional Compreensibilidade Interpretabilidade Versatilidade Dinamicidade do Dataset

Critérios que avaliam a atualização do dado no decorrer do tempo.

Idade

Volatilidade

Atualidade Fonte: Zaveri et al., 2012.

(31)

Por outro lado, avaliar a QI de forma independente do usuário pode gerar resultados distantes ao que o usuário realmente considera importante. Portanto antes de executar avaliações desse tipo, é importante identificar corretamente a tarefa que se tem em mãos, ou seja, aquilo que o usuário ou a aplicação deseja fazer. O real valor da informação só é percebido quando se precisa dela. Assaf e Senart (2012) defendem que a avaliação da qualidade está diretamente relacionada à habilidade de satisfazer continuamente as necessidades do usuário.

MÉTRICAS PARA CRITÉRIOS DE QI

Em geral, as métricas definidas para avaliar os critérios de QI geram um escore de avaliação, ou seja, um valor associado a um determinado critério de QI. As métricas são heurísticas desenvolvidas para adequar-se a uma situação de avaliação específica (Pipino et al., 2005; Zaveri et al., 2012). Por exemplo, para mensurar o critério de qualidade tempo de resposta para uma fonte de informação, é normalmente verificado o tempo que esta fonte levou para responder uma solicitação num dado momento, ou seja, a métrica utilizada para mensurar este critério é o intervalo de tempo entre o momento de recebimento da resposta e o momento de submissão da consulta (Zaveri et al., 2012). Para encontrar resultados mais precisos, em geral a métrica do tempo de resposta é realizada algumas vezes num intervalo de tempo com o objetivo de gerar uma média de tempos de resposta.

Os critérios de qualidade não são independentes uns dos outros e, tipicamente, apenas um subconjunto de critérios é relevante para uma situação específica. As métricas que serão associadas aos critérios de QI são determinadas pela tarefa específica que se tem em mãos (por exemplo, um conjunto de consultas) e por preferências subjetivas do consumidor da informação (Mendes et al., 2012 ; Naumann, 2012). Com o intuito de ilustrar a definição de métricas para critérios de QI, a seguir são apresentados os critérios disponibilidade, relevância e completude, juntamente com exemplos de métricas para sua avaliação.

Disponibilidade (Availability) – Naumann e Rolker (2000) definem a disponibilidade como sendo o percentual de tempo no qual uma fonte de informação permanece disponível. O fato de uma fonte de informação ser capaz de responder uma consulta atesta que ela está disponível naquele momento da consulta. Como exemplo de métrica para avaliação deste critério, destaca-se a utilização de testes de disponibilidade derivados a partir de um conjunto de consultas submetidas ao dataset (Naumann et al., 1998).

(32)

Completude do Esquema (Schema Completeness) – A completude, de forma geral, pode ser definida como “o grau para o qual a informação requisitada está presente numa dada fonte de informação” (Zaveri et al., 2012). Lóscio et al., (2012) dizem que para a completude do esquema, é possível afirmar que quanto mais conceitos solicitados por consultas qi pertencentes a um conjunto de consultas Q estiverem presentes no esquema de uma fonte de informação sj, diz-se que sj é uma fonte de informação mais completa para o conjunto de consultas Q. Como exemplo de métrica para avaliação da completude, o trabalho de Lóscio et al., (2012) propõe uma métrica para mensurar a completude do esquema de uma dada fonte de informação encontrando a razão entre o total de conceitos de um conjunto de consultas encontrados numa fonte de informação sj pelo total de conceitos existentes do conjunto de consulta Q.

Relevância (Relevancy) – É a extensão para o qual a informação é aplicável e útil para a tarefa em mãos (Bizer, 2007). A relevância é um critério altamente dependente do contexto e do usuário. Ela pode ser mensurada por meio do uso de atributos que avaliam se o conteúdo da fonte de informação é relevante para uma tarefa em particular. Zaveri et al., (2012) propõem contar o uso de atributos que descrevem meta informação de recursos relevantes para avaliação desse critério. Isto pode ser realizado a partir da contagem de propriedades que descrevem os recursos do linked dataset como, por exemplo, a propriedade rdfs:label.

A próxima seção discute o processo de seleção de fontes de dados no cenário de Linked Data.

2.4 SELEÇÃO DE FONTES DE DADOS

O desenvolvimento da Internet possibilitou um aumento no número de fontes de dados disponíveis para os usuários. Esta alta disponibilidade também trouxe à tona um grande problema: a informação de baixa qualidade (Nauman e Rolker, 2000). Este fato acarreta numa necessidade em consultar apenas fontes de dados mais adequadas às necessidades do usuário ou de uma determinada aplicação (Naumann et al., 1998).

Um cenário semelhante ocorre na Web de Dados. Após o surgimento da Web Semântica, em poucos anos, houve um imenso crescimento no montante de informações disponibilizadas na nuvem Linked Data. No entanto, os linked datasets apresentam modelo, formato e terminologias heterogêneas devido aos vocabulários e ontologias utilizados na publicação de seus dados. Encontrar e recuperar informações precisas sob demanda tem um grau de dificuldade mais acentuado para as organizações.

(33)

A maioria das fontes de dados presentes na Web de Dados está segmentada por domínios. Algumas delas, como, por exemplo, o DBpedia e suas versões em outras línguas, possuem informações de vários domínios. Este alto número de linked datasets levanta o problema de como selecionar fontes de dados para necessidades específicas. A Qualidade da Informação oferecida pelas fontes pode ser usada para sua seleção. Contudo, a Qualidade da Informação tem múltiplas dimensões, e isso dificulta tanto uma comparação direta entre elas, como também, a geração de um ranqueamento (Naumann et al., 1998). A seção seguinte discute o problema de avaliação da qualidade em fontes de dados.

2.4.1 AVALIAÇÃO DA QUALIDADE EM FONTES DE DADOS

As fontes de informação candidatas para avaliação da qualidade podem obter um escore máximo para uma dada métrica associada a um critério de QI, como também podem encontrar resultados não satisfatórios para outra métrica associado a outro critério. Por exemplo, se a avaliação de uma fonte de dados considera apenas o tempo de resposta, alguma fonte pode se destacar com um excelente escore para este critério, mas talvez esta candidata não possua nenhuma informação considerada relevante para o usuário ou para a tarefa que ele quer executar.

A própria definição de QI (Naumann et al., 1998; Zhu e Buchmann, 2002; Batista, 2003) diz que a qualidade de uma fonte de dados, e da informação que ela contém, deve ser mensurada utilizando mais de um critério de QI. A escolha entre um conjunto de fontes candidatas utilizando múltiplos critérios de QI caracteriza um problema de decisão por múltiplos atributos (Multi-Criteria Decision Making).

O fato da avaliação da QI utilizar múltiplos critérios, tanto subjetivos quanto objetivos, dificulta uma comparação entre os escores das fontes com o objetivo de gerar uma classificação entre elas (Naumann et al., 1998). Múltiplos critérios geralmente têm diferentes unidades: alguns critérios podem ser mensurados em unidade de tempo, outros podem receber notas subjetivas de um usuário. Múltiplos critérios também possuem tipicamente diferentes escalas: um critério pode ter valores entre 1 e 10, outros podem ser representados entre 0 e 1. Alguns critérios podem ser pontuados como positivo (qualidade), outros podem ser negativos (custo). Comparar fontes de dados usando múltiplos critérios naturalmente coloca uma dificuldade para encontrar um peso genérico para todos os critérios (Naumann et al., 1998).

Outro aspecto deste problema é com relação ao que fazer com os escores dos critérios de QI encontrados. Não faz sentido apenas somá-los ou calcular uma média, afinal, cada

(34)

critério é mensurado por uma unidade diferente. A seção a seguir irá mostrar o uso de quatro métodos de tomada de decisão aplicados na solução do problema de seleção de fontes de dados e, em seguida, fará uma comparação entre eles.

2.4.2 MÉTODOS PARA TOMADA DE DECISÃO

Para exemplificar os métodos de tomada de decisão serão utilizados três critérios de qualidade (positivos): disponibilidade (D), completude (C) e precisão (P); e dois critérios de custo (negativos): tempo de resposta (TR) e atualidade (A). Quanto mais altos os escores de critérios de qualidade e mais baixos os escores de custo, melhor classificada estará a fonte de dados associada.

Cinco fontes de dados hipotéticas (A, B, C, D e E) serão analisadas. Os escores para cada critério de QI estão representados numa matriz de decisão D com valores também hipotéticos. A maioria dos métodos de tomada de decisão utilizam pesos associados aos escores de cada critério. Os pesos são definidos pelo usuário e podem receber qualquer valor. A única restrição para os pesos é que a soma de todos deve ser igual a 1 (Batista, 2003). A Figura 2.5 apresenta a matriz de decisão e o vetor de pesos.

Figura 2.5 – Matriz de Decisão e vetor de pesos.

Os quatro métodos que serão abordados são os mais populares na resolução de problemas desse tipo (Naumann et al., 1998; Zhu e Buchmann, 2002): Ponderação Aditiva Simples, Técnica para Ordenar Preferências por Similaridade com a Solução Ideal, Processo de Análise Hierárquica e Análise por Envoltória de Dados. As próximas seções detalham cada um deles.

PONDERAÇÃO ADITIVA SIMPLES

O método de Ponderação Aditiva Simples (Simple Additive Weighting – SAW) é um dos mais populares e bem aceitos métodos. Embora seja um método simples, seus resultados normalmente são bem próximos de outros obtidos com métodos mais sofisticados.

Critérios Peso D 0,2 C 0,1 P 0,3 TR 0,3 A 0,2 D C P TR A A 10 40 9 300 6 B 6 60 15 500 5 D = C 9 80 20 550 8 D 5 100 4 800 7 E 3 70 8 400 9

(35)

O método SAW é resolvido em três passos: (i) uniformizar os escores para torná-los comparáveis, (ii) aplicar pesos e (iii) somar os valores dos escores de cada fonte de dados. As equações aplicadas na uniformização dos escores são:

=

₍( ) ₎ , para critérios de qualidade (positivo). (2.1)

=

₍( ) ₎ , para critérios de custo (negativo). (2.2)

onde: eij é o valor do escore do critério j para uma fonte de dados i, ej min representa o menor valor do critério j e ej max representa o maior valor do critério j.

A matriz normalizada é apresentada na Figura 2.6.

Figura 2.6 – Matriz de Decisão normalizada pelo método SAW.

D C P TR A A 1 0 0,3125 1 0,75 B 0,42857 0,33333 0,6875 0,6 1 Dnormalizada = C 0,85714 0,66667 1 0,5 0,25 D 0,28571 1 0 0 0,5 E 0 0,5 0,25 0,8 0

O escore global (a medida de qualidade única) da fonte de dados é calculado pela a soma ponderada definida na equação 2.3:

=

=1

, onde i = A, B, C, D e E. (2.3)

Com a aplicação das equações de uniformização, todos os valores de escores estarão dentro do intervalo [0,1], sendo os melhores escores de um critério com valor próximo de 1 e os piores com valor próximo de 0. Essa propriedade assegura a possibilidade de comparação entre os escores. Assim os cálculos para determinar a classificação das fontes de dados, seriam:

V(A) = (e11 * 0,2) + (e12 * 0,1) + (e13 * 0,3) + (e14 * 0,3) + (e15 * 0,2) = 0,74375 V(B) = (e21 * 0,2) + (e22 * 0,1) + (e23 * 0,3) + (e24 * 0,3) + (e25 * 0,2) = 0,705297619 V(C) = (e31 * 0,2) + (e32 * 0,1) + (e33 * 0,3) + (e34 * 0,3) + (e35 * 0,2) = 0,738095238 V(D) = (e41 * 0,2) + (e42 * 0,1) + (e43 * 0,3) + (e44 * 0,3) + (e45 * 0,2) = 0,257142857 V(E) = (e51 * 0,2) + (e52 * 0,1) + (e53 * 0,3) + (e54 * 0,3) + (e55 * 0,2) = 0,365

O valor gerado ao final da execução do método é definido neste trabalho como a medida única de qualidade da fonte de dados. Pela análise obtida com o uso do método SAW,

Uma abordagem para avaliação da qualidade de linked datasets para aplicações de domínio específicos

Walter Travassos Sarinho

A

R

A

L

F

L

Q

L

A

S

1. I

2. F

T

=

=



 



