Classificação de Linked Data - 3 ENGENHARIA DO CONHECIMENTO E WEB DE DADOS Este tópico aborda o

3 ENGENHARIA DO CONHECIMENTO E WEB DE DADOS Este tópico aborda os conceitos relacionados à Engenharia do

3.7.2 Classificação de Linked Data

A facilidade de publicação, em conjunto com a tendência de abertura de dados, fez surgir uma variada gama de tipos de dados e de termos derivados do conceito inicial de Linked Data (BIZER; CYGANIAK;GAUß, 2007).

À medida que dados de domínios diversos são publicados na forma de Linked Data, diferentes nomenclaturas são utilizadas na literatura para classificá-los. Para demonstrar algumas dessas novas propostas de Linked Data foi elaborada a Tabela 3 que apresenta um comparativo entre as diferentes nomenclaturas, levando-se em conta características como, natureza, origem, iniciativas e utilização dos dados. Em seguida estes termos serão apresentados de forma mais detalhada.

3.7.2.1 Linked Government Data

Embora seja indiscutível a importância da abertura dos dados por parte de agentes governamentais, a simples publicação passiva desses dados é insuficiente, já que, somente sua liberação em formatos abertos, estruturados e legíveis torna possível a terceiros utilizar, manipular e visualizar esses dados(FRANTZICH; SULLIVAN, 1996; MESKELL, 2007).

Governos como o do Reino Unido, EUA, Canadá, França, Espanha, Suécia, Itália, Hong Kong, Austrália, Nova Zelândia e Brasil são alguns dos que possuem portais dedicados a tornar acessíveis dados públicos, sendo que, alguns desses já estão disponíveis como Linked

Dada6_.

A aplicação dos princípios de Linked Data a bases de dados governamentais traz um enorme potencial (HEATH;BIZER, 2011). Isso permite um esquema aberto e extensível com informações explicativas sobre um determinado domínio, interligado com dados relacionados de outras fontes (HYLAND;WOOD, 2011).

Contudo, para Cyganiak, Reynolds e Tennison (2010) esse potencial não é completamente explorado, principalmente pela falta de recursos necessários para transformar, em grande escala, dados brutos de alta qualidade em Linked Data.

Semelhante a um processo de Engenharia de Software, a publicação de Linked Government Data (LOGD) necessita de um ciclo de vida (TAYLOR, 2007). Este processo é cíclico incremental, baseado na melhora contínua e expansão dos Linked Government Data resultante de várias interações (VILLAZÓN-TERRAZAS et al., 2011). As diretrizes para o processo de publicação de LOGD consistem em cinco atividades principais: (1) Especificação, (2) Modelagem, (3) Geração, (4) Publicação e (5) Exploração.

As atividades são decompostas em uma ou mais tarefas, e algumas técnicas e ferramentas são utilizadas para sua realização. A ordem pode ser alterada conforme necessidades específicas dos órgãos governamentais. Além disso, é importante obter feedback contínuo para prover melhoras constantemente. A seguir é apresentada a Tabela 4 com as principais tarefas de cada atividade.

Tabela 4- Principais tarefas de Linked Government Data.

Atividade Tarefas

Modelagem

1. Busca recursos governamentais de Web sites altamente confiáveis, sites de domínio relacionados e catálogos de governo; 2. Selecione os recursos governamentais mais adequados; 3. Transformar esses recursos em ontologias.

Geração 1.Transformação dos dados; 2. Limpeza dos dados; 3. Ligação dos dados. Especificação

1. Identificação e análise das fontes de dados do governo; 2. O projeto URI;

3. Definição de licença. Publicação

1. Publicação dos conjuntos de dados; 2. Publicação de metadados;

3. Permitir a descoberta efetiva. Exploração

1. Permitir a transparência; 2. Entregar aplicativos públicos;

3. Incentivar o uso público da informação governamental. Fonte: Elaborado com base em (VILLAZÓN-TERRAZAS et al., 2011).

3.7.2.2 Enterprise Linked Data

Com a demonstração do valor e as histórias de sucesso de projetos acadêmicos e de dados públicos, iniciativas de Linked Data passaram a chamar a atenção de grandes companhias (HU;

SVENSSON, 2010).

Segundo Allemang (2010), as experiências na Web sugerem que existem caminhos para empresas construírem arquiteturas sustentáveis com suas informações empresariais, transformando-se em “Linked Data

enterprises”, onde o ato de criação de informação está intimamente

ligado com o ato de compartilhamento, sendo este, tão importante como sua produção.

As contribuições da comunidade Linked Open Data (LOD), como a descrição de melhores práticas e a publicação de grandes conjuntos de dados em RDF, darão início a uma nova era de possibilidades para a criação de mashups inovadores usando este tipo de dados. Neles os sistemas de informação de uma companhia podem ser imaginados como um espaço de Linked Data (SERVANT, 2008).

Abordagens como as apresentadas por Servant (2008) e Hu e Svensson (2010) descrevem casos de aplicação de Linked Data em grandes organizações. Isso ocorre por meio da integração das tecnologias de informação e comunicação existentes, e dos dados internos da organização, com as abordagens de Linked Data. O uso de

Linked Data possibilita a ligação de dados a outras fontes externas, o

que resulta em novas possibilidades de visualização.

Além da interligação de dados, constitui boa prática a reutilização de vocabulários sempre que possível. Allemang (2010) lembra que as empresas geralmente possuem vocabulários refinados exclusivos para uso interno, além de ontologias ou taxonomias que podem ser úteis a outras organizações, e que devem ser convertidos para padrões internacionais como o SKOS (MILES;BECHHOFER, 2009) e o voiD (CYGANIAK et al., 2001).

3.7.2.3 Statistical Linked Data

O uso de Linked Data permite o acesso a grandes quantidades de dados serializados dos mais variados domínios. Contudo, esses dados costumam ser tipicamente heterogêneos e sem tratamento estatístico integrado (ZAPILKOEMATHIAK, 2011).

Além disso, mecanismos de interação de Linked Data como, navegadores, interfaces de busca facetadas e de consultas, não permitem que os usuários possam analisar grandes quantidades de dados numéricos de forma exploratória (KOBILAROV et al., 2009; HARTH, 2010; MILOŠEVIĆ et al., 2012).

Para melhorar a forma como os dados são analisados, uma abordagem comumente utilizada no tratamento de dados estatísticos é a utilização de cubos multidimensionais. Esses cubos foram oficialmente descritos no artigo de 1993 intitulado “Providing OLAP (Online

Analytical Processing) to User-Analysts: An IT Mandate”, escrito por

W.H. Inmon, R. Kimball, and E.F. Codd.

Segundo Cyganiak, Reynolds e Tennison (2010), esses cubos compreendem uma coleção de observações feitas em algum ponto sobre um espaço lógico. Essa coleção é caracterizada por um conjunto de dimensões que definem o escopo de cada observação, juntamente com os metadados descrevendo o que foi medido, como foi medido e de que maneira as observações são expressas.

O uso de operações OLAP (Online Analytical Processing) em cubos de dados possibilita a visualização de grandes quantidades de dados estatísticos a partir de diferentes ângulos, granularidades, permitindo a filtragem e comparação de medidas, representando em uma interface de apoio à tomada de decisão (CHAUDHURI;DAYAL, 1997; TRUJILLO, 2008).

As operações típicas do OLAP são de roll-up (aumenta o nível de agregação) e drill-down (diminui a agregação e aumenta o

detalhamento). Já as operações de Slice e dice (seleção e projeção respectivamente) trabalham a informação, modificando as posições sempre que houver necessidade de pivoteamento, possibilitando sumarizar e agrupar os dados em diversos formatos (CHAUDHURI; DAYAL, 1997).

Dois desafios são apontados por Kämpgen; O’rain,Harth (2012): OLAP requer um modelo de cubo de dados, dimensões e medidas. Criar automaticamente um esquema multidimensional de Dados Ligados genéricos é difícil (ROMERO; ABELLÓ, 2007; NEBOT et al., 2009; PARDILLO; MAZÓN, 2011). Ainda, consultas OLAP são complexas e requerem modelos de dados especializados como, por exemplo, o modelo estrela usado em bases de dados relacionais (GRAY et al., 1997).

Essa abordagem de Statistical Linked Data pode ser observada em Kampgen e Harth (2011) que utilizam dados de diversas bases disponíveis na Web em um sistema OLAP. Os autores apresentam uma forma de interagir com dados estatísticos em um cubo modelado em RDF, possibilitando consultas em SPARQL.

Dentre os vocabulários destinados à representação de dados estatísticos, destacam-se o Statistical Data and Metadata Exchange (SDMX) e o RDF Data Cube Vocabulary (QB). Segundo Cyganiak; Reynolds,Tennison (2010) a especificação SDMX define ainda um modelo de informação central expresso em RDF chamado SDMX-RDF. O RDF Data Cube Vocabulary (CYGANIAK; REYNOLDS; TENNISON, 2010) tem o propósito de permitir a publicação de dados estatísticos na Web, fornecendo um metamodelo para conjuntos de dados multidimensionais, análogo ao modelo relacional utilizando-se do vocabulário SDMX.

3.7.2.4 Outras classificações de Linked Data

Além das abordagens anteriormente apresentadas, Linked Data abrange uma variada gama de domínios, como pessoas, dados geográficos, dados provenientes de sensores, entre outros. Duas dessas abordagens são aqui apresentadas de forma resumida: GeoLinked Data e

Linked Sensor Data.

GeoLinked Data é uma iniciativa espanhola, cujo objetivo é

enriquecer a Web de Dados com dados geoespaciais. Esta iniciativa começou com a publicação de fontes de informação pertencentes ao Instituto Geográfico Nacional da Espanha. Essas fontes são disponibilizadas em RDF de acordo com as práticas de Linked Data

(VILCHES-BLÁZQUEZ et al., 2010). Outros trabalhos relacionados são descritos em (AUER; LEHMANN; HELLMANN, 2009; STADLER et al., 2012).

Já a ideia por trás da Linked Sensor Data, proposta por Patni, Henson e Sheth (2010), é fazer com que os dados de sensores e metadados de acesso público sejam armazenados na nuvem de Linked

Data. Seguindo a tendência de tornar os dados acessíveis ao público, os

dados de sensores foram interligados usando uma ontologia7_{. Janowicz}

et al. (2010) e Pschorr et al. (2009) apresentam trabalhos relacionados. 3.8 CONSIDERAÇÕES SOBRE O CAPÍTULO

Este capítulo apresentou os conceitos básicos sobre Engenharia do Conhecimento, trouxe uma abordagem evolutiva sobre a Web que passou pela Web 2.0 e Web Semântica até chegar a Web de Dados.

A principal contribuição trazida pela Web Semântica é a atribuição de semântica ao conteúdo. Essa característica acrescenta a

Web tradicional a possibilidade de ligação automática de documentos

que são semanticamente semelhantes (BONNER, 2002). O resultado é um espaço global de dados que chamamos de Web de Dados (BIZER; HEATH;BERNERS-LEE, 2009).

Estas anotações semânticas são a principal característica que faz da Web de Dados uma fonte de informação estruturada, mais consistente e de fácil recuperação para a etapa de coleta do processo de IC. O uso da

WoD pode representar ganho de tempo na etapa de coleta uma vez que

os dados possuem tratamento prévio e são ligados a outras fontes. Isso pode auxiliar não somente na coleta mas também na etapa de análise do ciclo de IC.

7_{http://knoesis.wright.edu/research/semsci/application_ domain/sem_sensor/ont/sensor-}

No documento Uso da web de dados como fonte de informação no processo de inteligência competitiva setorial (páginas 89-97)