• Nenhum resultado encontrado

Publicação de dados conectados sobre despesas orçamentárias do governo federal brasileiro

N/A
N/A
Protected

Academic year: 2021

Share "Publicação de dados conectados sobre despesas orçamentárias do governo federal brasileiro"

Copied!
155
0
0

Texto

(1)

PUBLICAÇÃO DE DADOS CONECTADOS SOBRE DESPESAS

ORÇAMENTÁRIAS DO GOVERNO FEDERAL BRASILEIRO

por

Webber de Souza Fantini

Dissertação de Mestrado

UNIVERSIDADE FEDERAL DE PERNAMBUCO CIN - CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO posgraduacao@cin.ufpe.br

www.cin.ufpe.br/~posgraduacao

RECIFE 2015

(2)

UNIVERSIDADE FEDERAL DE PERNAMBUCO CIN - CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO posgraduacao@cin.ufpe.br

www.cin.ufpe.br/~posgraduacao

PUBLICAÇÃO DE DADOS CONECTADOS SOBRE DESPESAS

ORÇAMENTÁRIAS DO GOVERNO FEDERAL BRASILEIRO

Webber de Souza Fantini

Dissertação apresentada como requisito parcial à obtenção do grau de Mestre em Ciência da Computação, área de concentração em Banco de Dados, do Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

ORIENTADOR: Profo. Dra. Bernadette Lóscio Farias

RECIFE 2015

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

F216p Fantini, Webber de Souza

Publicação de dados conectados sobre despesas orçamentárias do governo federal brasileiro / Webber de Souza Fantini – Recife: O Autor, 2015.

154 f.: il., fig., tab.

Orientador: Bernadette Farias Lóscio.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2015.

Inclui referências e apêndice.

1. Banco de dados. 2. Web semântica. 3. Ontologia. I. Lóscio,

Bernadette Farias (orientadora). II. Título.

025.04 CDD (23. ed.) UFPE- MEI 2015-186

(4)

Dissertação de Mestrado apresentada por Webber de Souza Fantini à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “PUBLICAÇÃO DE DADOS CONECTADOS SOBRE DESPESAS

ORÇAMENTÁRIAS DO GOVERNO FEDERAL BRASILEIRO” orientada pela Profa. Bernadette Farias Lóscio e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Profa. Ana Carolina Brandão Salgado

Centro de Informática/UFPE

______________________________________________ Profa.Damires Yluska de Souza Fernandes

Unidade Acadêmica de Informática / IFPB

_______________________________________________ Profa. Bernadette Farias Lóscio

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 28 de agosto de 2015.

___________________________________________________

Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Dedicatória

(6)

Agradecimentos

Primeiramente, agradeço a Deus.

Agradeço imensamente aos meus pais Roberto Fantini e Wena Lúcia pelo carinho, apoio, por estarem ao meu lado em todos os momentos, pelos conselhos, por serem minha fortaleza. Agradeço todos os dias a Deus por eles existirem.

Agradeço muito à minha irmã Wilne Fantini (Ninha) por ser minha melhor amiga, amada e confidente, e por todo seu apoio e conselhos.

A toda minha família, Souza e Fantini, pela força, compreensão e por acreditarem em mim, em especial minha avó, Cremilda, e meus tios Rui, Sérgio e Edite, e meus primos Serginho e Rodrigo.

A uma pessoa linda em minha vida, minha namorada, Luana Possas (Lua), por me proporcionar momentos felizes, por me dar força e apoio, por me ajudar nos momentos mais difíceis. Espero que continue ao meu lado sempre. Agradeço também a Ana Melo, Ana Isabel, Davi Possas, Carolina e Laís.

Toda a família Ponce, especialmente meu amigo e irmão Enrique Ponce pelo apoio. Ao meu amigo Ticiano Figueiredo por toda força, compreensão e sólida amizade, como também sua esposa e amiga Camilla.

Aos meus amigos do bairro, pela amizade, força e compreensão pelos momentos de ausência, em especial Fábio Falcão.

A todos os colegas e amigos de pós-graduação que conheci e por quem construí uma amizade. Um abraço para Myller Claudino, Sidartha Azevedo, Emanoel Carlos, Herbett Diniz, Patrícia Vieira, Priscilla Vieira, Carla Cristina, Aline Chagas, Marcelo Iury entre outros. Em especial, Bruno Iran Maciel, pela amizade e valiosas contribuições durante o desenvolvimento do trabalho.

Aos meus amigos Ana Luiza, Rodrigo Lins, Marcello Mello, que contribuíram indiretamente para este trabalho.

Aos Prof. Dr. Ricardo Amorim e Dinani Amorim pela força.

A Kellyton Brito, pelas conversas, pela força. Por ter contribuído para o meu crescimento.

Um agradecimento muito especial a Luís Sérgio Araújo, um conterrâneo, que em pouco tempo mostrou-se ser um amigo de verdade. Obrigado pela paciência, presteza e amizade. Pelas contribuições e sugestões valiosas para a construção deste trabalho.

(7)

Ao Matheus Souza Fonseca por também ter me ajudado no desenvolvimento deste trabalho com suas dicas valiosas.

A todos os professores da pós-graduação que contribuíram para meu crescimento, em especial, aos professores Ana Carolina Salgado, Fernando Fonseca de Souza, Flávia de Almeida Barros.

A todos os funcionários do Centro de Informática da Universidade Federal de Pernambuco – Cin - UFPE.

Em especial à minha orientadora, Prof.a Dr.a. Bernadette Farias Lóscio, por todo seu caráter, profissionalismo, paciência, e dedicação para comigo durante as diversas atividades de pesquisa e andamento deste trabalho. O meu Muito Obrigado!

Aos integrantes da banca, Prof.a Dr.a Damires Yluska de Souza Fernandes e o Prof.a Dr.a Ana Carolina Salgado, por se prestarem como avaliadores do trabalho. Meus sinceros agradecimentos.

A todos que colaboraram direta ou indiretamente com este trabalho.

A todos pela compreensão da minha ausência, em vários momentos. Agradeço a todos meus amigos que torceram por mim, para que eu concluísse com sucesso esse desafio.

(8)

Resumo

Para transparência e fortalecimento da democracia, é de suma importância que a sociedade tenha acesso às informações livremente. No controle social e na fiscalização do governo, o Orçamento Público é um grande aliado que pode determinar quais ações (despesas) serão feitas pelo Governo com os recursos originados de contribuições (receitas) da sociedade. A iniciativa de disponibilização dos dados orçamentários em formato aberto foi concretizada, e para isso ser realizado, utilizou-se uma ontologia do orçamento federal, denominada LOA, com o objetivo de representar a classificação das despesas do orçamento. Ela possibilita discriminar e detalhar os valores da despesa em categorias denominadas classificações orçamentárias de tal forma que é possível identificar, por meio dessas classificações, em quais categorias se enquadra uma determinada despesa. Porém, entre as informações nela descritas, não consta a identificação das empresas ou pessoas e os respectivos pagamentos recebidos. Neste contexto, este trabalho realiza uma extensão ao modelo ontológico do Orçamento Federal Brasileiro, de modo a apresentar valores de execução orçamentária, discriminando os pagamentos efetuados, os respectivos valores e os favorecidos – pessoas, empresas ou organizações. Esta expansão da ontologia proposta neste trabalho permite uma representação do conhecimento dos dados de pagamentos referente ao domínio do orçamento. Os dados disponibilizados pelo governo no Portal da Transparência são convertidos para o formato RDF e conectados com os conjuntos de dados do Portal de Dados Abertos do Governo Brasileiro. O novo conjunto de dados é publicado e acessado em um terminal de consultas denominado endpoint, por meio da linguagem SPARQL, visando dar suporte a um monitoramento público, para o planejamento e a execução do orçamento. Como forma de avaliação, é construída uma aplicação como prova de conceito da publicação dos dados conectados e, para avaliação da ontologia, são criadas Questões de Competência (QCs) que permitem que a ontologia desenvolvida neste trabalho esteja de acordo com os requisitos levantados, bem como com os conceitos referentes ao domínio orçamentário.

(9)

Abstract

It is crucial that the society has open access to information easily in order to keep the transparency and strength of democracy. The Public Budget is a great ally in social control and government invigilation which can determine which actions (expenses) will be taken by the Government with the income collected by taxes. An ontology of the Federal Budget, named LOA, has been used to represent the classification of the budget expenses, since the budgetary data has been provided. It allows the discrimination and detailing of the value of each expense in categories, named budgetary classifications, in a way we can identify, through this classification, in which category each expense falls into. The identification of the companies or people and the respective payment they got, however, is not included in it. Having considered all these issues, this work shows the results of an extension of the ontological model of the Brazilian Federal Budget, in order to present the budget execution data, differentiating the payments finalized, its respective values and who received them – people, companies or organizations. The ontology expansion proposed in this work allows for the representation of budgetary data disclosure. The data made available through the Portal de Transparência (transparency portal) is converted into RDF format and connected to the data from the Portal de Dados Abertos do Governo Brasileiro (Brazilian Government Open Data Portal). The new data set is published and accessed in a consult terminal designated endpoint, through SPARQL language, aiming to maintain public monitoring, throughout the planning and execution of the data. As an evaluation, an application has been built to prove the concept of the publication of the connected data, and, to evaluate the ontology, we designed Competence Questions (CQs) to allow the ontology to be in accordance with the requirements raised in this work, as well as the concepts related to the budgetary domain.

(10)

Lista de Figuras

FIGURA 1-EVOLUÇÃO DA TRANSPARÊNCIA NAS CONTAS PÚBLICAS ... 14

FIGURA 2-PROCESSO INTEGRADO DE PLANEJAMENTO E ORÇAMENTO ... 20

FIGURA 3-ITEM DE DESPESA DA LOA DE 2013 ... 24

FIGURA 4-ARQUITETURA EM CAMADAS DA WEB SEMÂNTICA.. ... 34

FIGURA 5-EXEMPLO DE UMA TRIPLA RDF. ... 36

FIGURA 6-EXEMPLO DE UM GRAFO RDF. ... 37

FIGURA 7- LOD CLOUD... 42

FIGURA 8-ESQUEMA DE MATURIDADE DE PUBLICAÇÃO DE DADOS ABERTOS. ... 43

FIGURA 9-DIAGRAMA DA ONTOLOGIA DO GOVERNO UK. ... 47

FIGURA 10-PASSOS DA TÉCNICA DE TRADUÇÃO DAS QCS. ... 56

FIGURA 11-ITEM DE DESPESA. ... 60

FIGURA 12-DIAGRAMA DE CLASSES E PROPRIEDADES DA ONTOLOGIA DA LEI ORÇAMENTÁRIA ANUAL.. ... 61

FIGURA 13-RELAÇÃO DE ITEM DE DESPESA COM PAGAMENTOS... 63

FIGURA 14-DIAGRAMA DE CLASSES E PROPRIEDADES DA ONTOLOGIA ONTOPAG. ... 66

FIGURA 15-ARQUITETURA DA APLICAÇÃO COP ... 72

FIGURA 16-CONJUNTOS DE DADOS PARA DOWNLOAD ... 75

FIGURA 17-EXTRAÇÃO E CARGA NA BASE DE DADOS ... 78

FIGURA 18-COMPONENTES DA ARQUITETURA DO FRAMEWORK D2RQ. ... 80

FIGURA 19-MAPEAMENTO DA CLASSE FAVORECIDO ... 82

FIGURA 20-MAPEAMENTO DA CLASSE PAGAMENTO. ... 83

FIGURA 21-PARÂMETROS DE CONEXÃO UTILIZADOS PELO ARQUIVO DE MAPEAMENTO. ... 84

FIGURA 22-ARQUIVO RDF(FORMATO TURTLE) GERADO ... 86

FIGURA 23-EXEMPLO DE CONSULTA SPARQL–SOMATÓRIO PAGAMENTO 2014 ... 90

FIGURA 24-RESULTADO DA CONSULTA –SOMATÓRIO PAGAMENTO 2014 ... 90

FIGURA 25-EXEMPLO DE CONSULTA SPARQL–PAGAMENTOS PÚBLICOS/SIGILOSOS ... 91

FIGURA 26-RESULTADO DA CONSULTA –PAGAMENTOS PÚBLICOS/SIGILOSOS ... 91

FIGURA 27-EXEMPLO DE CONSULTA SPARQL–VALORES ESFERA ... 92

FIGURA 28-RESULTADO DA CONSULTA CONECTADA ... 92

FIGURA 29–RESULTADO DA CONSULTA 1 ... 103

FIGURA 30-RESULTADO DA CONSULTA 2 ... 103

FIGURA 31-RESULTADO DA CONSULTA 3 ... 104

FIGURA 32-RESULTADO DA CONSULTA 4 ... 105

FIGURA 33-RESULTADO DA CONSULTA 5 ... 106

FIGURA 34-RESULTADO DA CONSULTA 6 ... 107

FIGURA 35-RESULTADO DA CONSULTA 7 ... 109

FIGURA 36-RESULTADO DA CONSULTA 8 ... 110

FIGURA 37-RESULTADO DA CONSULTA 9 ... 111

(11)

Lista de Tabelas

TABELA 1-CATEGORIAS DE USO DE ONTOLOGIAS PARA A ÁREA DA CIÊNCIA DA COMPUTAÇÃO. ... 28

TABELA 2-EXEMPLOS DE CONSTRUTORES EM RDF/RDFS ... 37

TABELA 3-TIPOS DE LIGUAGEM OWL. ... 40

TABELA 4-TRABALHOS RELACIONADOS ... 49

TABELA 5-TABELA DE VALORES DAS QCS ... 58

TABELA 6-PROPRIEDADES DE OBJETO DA ONTOLOGIA ONTOPAG ... 68

TABELA 7-PROPRIEDADES DE DADOS DA ONTOLOGIA ONTOPAG ... 69

TABELA 8-EXEMPLO DE N-TRIPLES ... 87

TABELA 9-TABELA DE QCS ... 96

TABELA 10-TABELA DAS RESPOSTAS ESPERADAS DAS QCS ... 97

TABELA 11- TABELA DAS ENTIDADES EXTRAÍDAS DAS QCS E SUAS RESPOSTAS ... 98

TABELA 12–TABELA COM ENTIDADES E SUA LOCALIZAÇÃO NA ONTOLOGIA ... 99

TABELA 13-CONSULTA 1 ... 102 TABELA 14-CONSULTA 2 ... 103 TABELA 15-CONSULTA 3 ... 104 TABELA 16-CONSULTA 4 ... 105 TABELA 17-CONSULTA 5 ... 106 TABELA 18-CONSULTA 6 ... 107 TABELA 19-CONSULTA 7 ... 108 TABELA 20-CONSULTA 8 ... 109 TABELA 21-CONSULTA 9 ... 110 TABELA 22-CONSULTA 10... 111

(12)

Sumário

1 INTRODUÇÃO ... 12 1.1 MOTIVAÇÃO ... 13 1.2 CARACTERIZAÇÃO DO PROBLEMA ... 15 1.3 OBJETIVOS ... 17 1.3.1 Objetivo Geral ... 17 1.3.2 Objetivos Específicos ... 17 1.4 CONTRIBUIÇÕES ... 17 1.5 ORGANIZAÇÃO DA DISSERTAÇÃO ... 18 2 FUNDAMENTAÇÃO TEÓRICA ... 19 2.1 ORÇAMENTO PÚBLICO ... 20 2.1.1 Classificação Orçamentária ... 21

2.2 DADOS GOVERNAMENTAIS ABERTOS ... 25

2.3 ONTOLOGIAS ... 28

2.3.1 Metodologias para construção de ontologias ... 29

2.4 PADRÕES DA WEB SEMÂNTICA ... 34 2.4.1 RDF ... 36 2.4.2 SPARQL ... 38 2.4.3 OWL ... 38 2.5 LINKED DATA ... 41 2.6 TRABALHOS RELACIONADOS ... 44 2.7 CONSIDERAÇÕES ... 49

3 PROCESSO DE DESENVOLVIMENTO DA ONTOLOGIA ONTOPAG ... 51

3.1 INTRODUÇÃO ... 52

3.2 DESENVOLVIMENTO DA ONTOLOGIA ONTOPAG ... 53

3.2.1 Modelo Ontológico das Classificações da Despesa - LOA... 59

3.2.2 A Ontologia OntoPag ... 63

3.3 CONSIDERAÇÕES ... 69

4 COP: APLICAÇÃO PARA CONECTAR E PUBLICAR DADOS ORÇAMENTÁRIOS ... 70

4.1 ARQUITETURA DA APLICAÇÃO COP ... 71

4.1.1 Fontes de Dados de Origem ... 73

4.1.2 Extração, Transformação e Carga dos Dados ... 76

4.1.3 Mapeamento ... 78

4.1.4 Triplificação ... 84

4.1.5 Publicação e Acesso aos Dados ... 88

4.2 CONSIDERAÇÕES ... 93

5 AVALIAÇÃO DA ONTOLOGIA ONTOPAG ... 94

5.1 AVALIAÇÃO DA ONTOLOGIA ONTOPAG ... 95

5.2 CONSIDERAÇÕES ... 114

6 CONCLUSÕES E TRABALHOS FUTUROS ... 115

6.1 CONCLUSÕES ... 116 6.2 TRABALHOS FUTUROS ... 117 REFERÊNCIAS... 118 APÊNDICES ... 125 APÊNDICEA ... 126 APÊNDICEB ... 135 APÊNDICEC ... 145 APÊNDICED ... 154

(13)

Capítulo

1

1 Introdução

Este capítulo descreve a introdução deste trabalho, bem como a motivação, a questão de pesquisa e os objetivos do trabalho. Por fim, é apresentada a estrutura desta dissertação em capítulos.

(14)

1.1 Motivação

O governo federal brasileiro movimenta, anualmente, um enorme montante em recursos financeiros. São recursos provenientes de impostos, contribuições, financiamentos destinados ao pagamento de bens e serviços para o Estado, bem como transferências para entes e pessoas físicas. O valor total anual estimado gira em torno de 37% do Produto Interno Bruto – PIB, incluindo união, estados e municípios1.

A movimentação dos recursos financeiros segue um princípio básico de finanças públicas, segundo o qual nenhuma despesa pode ser realizada sem autorização legislativa. Esta autorização é realizada pelo orçamento público, que especifica e descreve todas as despesas e receitas da entidade pública para o período de um ano, conhecido também como ano fiscal (GIAMBIAGI, 2008). Desta maneira, é de grande importância para a sociedade e poder público estimular ações e fortalecer a transparência juntamente como o livre acesso às informações de interesse coletivo.

O interesse por uma gestão pública mais transparente deu início a esforços em nível global, atraindo atenção de governos e nações em geral. Por exemplo, os Estados Unidos (EUA) foram uma das nações pioneiras em firmar acordo no sentido de aumentar a transparência da gestão pública, fortalecendo também o poder de fiscalização da sociedade. O principal interesse das medidas adotadas para melhorar a transparência consiste basicamente em um compromisso da administração em garantir a confiança pública e estabelecer um sistema de transparência, participação da sociedade e colaboração (OBAMA, 2014).

Em vista das influências e tendências internacionais, o governo brasileiro adotou um conjunto de medidas no sentido de fortalecer a transparência da gestão pública. Em 2011, uma das principais contribuições foi a Lei de Acesso à Informação2 (LAI) - Lei 12.527, que define a publicidade como princípio geral para assegurar aos cidadãos o direito de acesso à informação de interesse público e o sigilo como exceção. As medidas, em geral, são possíveis graças ao avanço das Tecnologias da Informação e Comunicação (TIC), capazes de viabilizar a implantação e uso de ferramentas por parte da sociedade em geral.

A legislação brasileira recomenda o uso da Web como meio de divulgação para diversas áreas como, por exemplo, a orçamentária. Segundo Craveiro et al. (2013), a Organização para a Cooperação Econômica e Desenvolvimento, o Fundo Monetário Internacional (FMI) e a Federação Internacional de Contabilistas, além de sugerirem ações que se traduzem em boas

1 http://www.ibge.gov.br/

(15)

práticas, também apontaram o uso da Web como um meio de comunicação com o potencial de fornecer informações de forma oportuna e transparente para os diversos atores sociais.

A publicação de dados governamentais na Web contribui para o desenvolvimento de iniciativas de ordem da sociedade. O uso dos conjuntos de dados disponibilizados viabiliza a descoberta de informações e conhecimento em geral. Um dos grandes benefícios do uso dos dados abertos disponibilizados na Web está na capacidade de combiná-los, possibilitando o cruzamento de dados e a geração de novos conjuntos de dados.

Este trabalho tem interesse particular nos dados relevantes ao orçamento público, pois é de grande importância para o poder público e para a sociedade acompanhar e fiscalizar os recursos financeiros administrados pelo governo, como os recursos usados para manutenção de serviços como saúde, educação, transporte e demais áreas.

Na Figura 1, são apresentados de maneira cronológica fatos relacionados à evolução da transparência nas contas públicas de acordo com Corrêa (2010):

Figura 1 - Evolução da transparência nas contas públicas

O progresso da legislação brasileira sobre orçamento público proporcionou uma melhor forma de controle social, inclusive os órgãos públicos devem disponibilizar em tempo real informações detalhadas do orçamento em meios eletrônicos de acesso público (Brasil, 2009).

As consultas aos dados do orçamento público, bem como os pagamentos efetuados com recursos do Orçamento Federal Brasileiro, podem ser feitas por meio de alguns portais/sistemas orçamentários. Algumas das soluções são: (i) Sistema Integrado de Administração Financeira do Governo Federal – SIAFI; (ii) Sistema de Informações sobre o Orçamento Público – SIGA Brasil3; e (iii) Portal da Transparência4. No entanto, os dados que estão nesses portais são de difícil acesso e manipulação, já que não estão disponibilizados em notação que permita

3 http://www12.senado.gov.br/orcamento/sigabrasil 4 http://www.portaldatransparencia.gov.br/

(16)

expressividade dos dados, assim como liberdade de acesso, edição e compartilhamento, dificultando a integração com outros conjuntos de dados. A seguir, será caracterizado o problema de pesquisa.

1.2 Caracterização do Problema

O orçamento contém informações sobre as autorizações para gastos com suas classificações (quanto para cada órgão, finalidade, entre outros) e valores (quanto foi orçado, quanto foi empenhado, quanto foi pago). Mesmo tratando-se de objetos relacionados, essas bases de dados não estão conectadas. Com os dados do orçamento, por exemplo, é possível identificar quanto foi pago em um programa de governo por um determinado órgão, mas não é possível saber, do valor pago, quais foram as empresas ou organizações que receberam o dinheiro. Essas informações só poderão ser encontradas em outras bases de dados como uma base sobre pagamentos.

O setor orçamentário e financeiro do governo federal apresenta uma série de características interessantes como estudo de caso de Linked Data na Web. Em primeiro lugar, os dados orçamentários e financeiros são públicos. Um dos princípios básicos do orçamento público é a publicidade. No entanto, o grande volume de dados e suas complexas formas de apresentação tornam esses dados quase impossíveis de serem tratados e compreendidos pelos cidadãos. Para conjuntos de dados com esse grau de complexidade, torna-se necessário algum instrumento de organização como sistemas gerenciadores de bancos de dados, que permitam consultas estruturadas e seletivas. Tais instrumentos, contudo, não são disponibilizados pelos órgãos públicos.

O orçamento federal é publicado em formato PDF, totalizando em torno de 3.000 páginas. Esse problema foi amplamente diminuído com a publicação dos dados do orçamento federal em RDF, que avançou significativamente ao disponibilizar seus dados na Web com alto nível de expressividade. Para alcançar uma melhor expressividade semântica dos dados, utilizou-se a ontologia5, denominada LOA (ARAÚJO e CRUZ, 2012), resultado de um projeto do acordo de cooperação técnica entre a Secretaria de Orçamento Federal do Ministério do Planejamento, Orçamento e Gestão – SOF/MP6 e a Universidade de Brasília7, para expressar sem ambiguidades as categorias em que são classificadas as despesas do orçamento. Os conjuntos de dados do orçamento público de 2000 a 2015 estão disponibilizados em formato RDF, padrão recomendado

5

http://vocab.e.gov.br/2013/09/loa 6 http://www.orcamentofederal.gov.br/ 7 http://www.unb.br/

(17)

pelo W3C (World Wide Web Consortium) para descrição de recursos na Web, possibilitando à sociedade o acesso irrestrito e tempestivo às informações, até então, impossíveis de serem obtidas.

No entanto, os dados da base de dados do orçamento não respondem a todas as perguntas dos interessados nos gastos públicos. O orçamento público é um plano previamente preparado com estimativas agregadas de gastos, classificados em categorias denominadas classificações. O principal objetivo do orçamento é conferir autorização aos órgãos públicos para realizarem os gastos durante o período de um ano. Portanto, uma rubrica orçamentária, também chamada de dotação orçamentária especifica um determinado volume de recursos financeiros a serem gastos em um período de um ano. O orçamento não especifica em que data e qual a empresa ou organização que será contratada para atender a determinada demanda do setor público. Esta informação é registrada no Sistema de Contabilidade do Governo Federal – SIAFI, porém não faz parte da base de dados do orçamento. A base de dados do orçamento disponibiliza a soma dos valores pagos em cada rubrica orçamentária sem, contudo, indicar os pagamentos individualmente.

No entanto, as infomações sobre os pagamentos são amplamente demandadas, tanto pela população em geral como também pelos próprios agentes públicos, a maioria dos quais não tem acesso irrestrito às bases de dados oficiais. Além disso, as informações orçamentárias de cada pagamento são importantes, uma vez que é o orçamento que traz o contexto mais amplo da despesa. É no orçamento que pode ser identificada a responsabilização pelo gasto (a unidade administrativa), o objeto do gasto (despesa de pessoal, aquisição de material de consumo), o impacto econômico do gasto (despesa corrente ou de capital) e muitas outras.

Pode-se dizer que a informação sobre os pagamentos complementa a informação do orçamento, de forma que o ciclo do gasto público, que se inicia no orçamento, é concluído na fase do pagamento.

A disponibilização da informação de pagamento em RDF, por si só, já traz um grande benefício social. No exercício de 2014, foram registrados 14.741.885 de pagamentos. Cada pagamento identificado com CPF ou CNPJ, nome do favorecido, data do pagamento, valor pago, categorias orçamentárias relacionadas e outros detalhes.

Dado o contexto e relevância dos dados orçamentários, este trabalho é motivado por meio do desafio de conectar computacionalmente dados orçamentários, de tal maneira que seja

possível identificar favorecidos e valores dos recursos envolvidos, o que não é possível com as informações disponíveis hoje. Considerando que as despesas públicas consistem em um

(18)

pessoa ou entidade, verificou-se esta etapa como uma das mais importantes para manutenção da civilidade e fiscalização por parte da sociedade em geral.

Sendo assim, a partir do problema de pesquisa foi formulada a seguinte questão de pesquisa: Como possibilitar que os dados sobre os pagamentos efetuados com recursos do

Orçamento Público Federal sejam conectados aos dados de despesas, publicados em formato RDF, de forma a permitir consultas que ofereçam uma visão integrada sobre dados distribuídos nestes dois repositórios?

1.3 Objetivos

Para responder à pergunta de pesquisa, foram definidos os seguintes objetivos, divididos em geral e específicos:

1.3.1 Objetivo Geral

Este trabalho tem como objetivo geral propor uma solução para geração de dados conectados sobre o Orçamento Público Federal, incluindo dados sobre Pagamentos. A solução proposta faz uso de ontologias para descrição do domínio orçamentário e dos princípios de Linked Data para a geração dos dados conectados.

1.3.2 Objetivos Específicos

 Estender a ontologia de domínio do Orçamento Público Federal (LOA), a fim de permitir a representação de dados relativos a pagamentos;

 Especificar uma aplicação para facilitar a conexão dos dados de orçamento público com os dados de pagamentos e os respectivos favorecidos;

 Desenvolver uma aplicação para geração e manipulação dos dados conectados sobre o Orçamento Público Federal;

 Avaliar a ontologia para representação dos dados de pagamentos por meio de questões de competência.

1.4 Contribuições

Este trabalho apresenta, portanto, alternativas que possam ajudar o cidadão e poder público na tarefa de fiscalização dos recursos de origem do governo federal brasileiro. A

(19)

possibilidade de vincular os favorecidos com os valores gastos contribui para a fiscalização dos recursos repassados.

A proposta apresentada serve de ponto de partida para o desenvolvimento de aplicações que façam a publicação e vinculação dos diversos dados provenientes do governo federal brasileiro. O público-alvo é composto por cidadãos que conhecem seus direitos e contribuem ativamente na fiscalização da gestão pública.

Este trabalho tem como principais contribuições:

Apresentação de um estudo abrangente dos temas Dados Abertos Governamentais, Web Semântica e Modelo Orçamentário, de modo a facilitar o desenvolvimento de futuros trabalhos dentro desses tópicos;

 Extensão do modelo ontológico da classificação das despesas do Orçamento Público Federal Brasileiro e desenvolvimento da ontologia OntoPag, a qual permite a representação de dados orçamentários relativos a pagamentos;

 Desenvolvimento de uma aplicação que permite a geração e manipulação dos dados conectados do Orçamento Público Federal Brasileiro, incluindo dados relativos a despesas e dados de pagamentos (favorecidos e valores pagos).

1.5 Organização da dissertação

Além deste capítulo, esta dissertação está organizada da seguinte forma: no Capítulo 2, é apresentada a Fundamentação Teórica referente aos conceitos básicos para o entendimento deste trabalho. No Capítulo 3, é apresentado a ontologia de orçamento público federal e o desenvolvimento da ontologia de pagamentos. No Capítulo 4, é detalhada a aplicação, bem como a implementação da proposta para conectar os dados de orçamento público. No Capitulo 5, é descrito o processo de avaliação da ontologia OntoPag. Por fim, no Capítulo 6, é apresentada uma conclusão do trabalho e os trabalhos futuros.

(20)

Capítulo

2

2 Fundamentação Teórica

Este capítulo tem como objetivo apresentar os principais conceitos dos temas relacionados com este trabalho, bem como os trabalhos relacionados com esta pesquisa.

(21)

2.1 Orçamento Público

Parte das informações do orçamento público que devem ser disponibilizadas para a sociedade é definida durante o planejamento do orçamento que acontece no ano anterior à sua execução. Nesta seção, são apresentados os principais aspectos do Orçamento Público.

O Orçamento Público consiste em um instrumento de planejamento e execução para as finanças públicas. Nele, são estimadas as receitas e fixadas as despesas orçamentárias que serão realizadas durante o exercício correspondente.

De acordo com o Manual Técnico do Orçamento 2015 (MTO), o planejamento orçamentário brasileiro baseia-se na elaboração e execução de 3 (três) leis – o Plano Plurianual (PPA), a Lei de Diretrizes Orçamentárias (LDO) e na Lei de Orçamentos Anuais (LOA) – que, em conjunto, colocam em prática o planejamento e a execução das políticas públicas. O PPA consiste no planejamento de um período de quatro anos, nos quais nenhuma despesa que ultrapasse um exercício poderá ocorrer sem ter sido nele incluída. A LDO tem como principal finalidade orientar a elaboração dos orçamentos fiscais e da seguridade social e de investimento do Poder Público. A LOA, por sua vez, é o orçamento propriamente dito, contendo as previsões de receitas e fixação das despesas que serão executadas no exercício correspondente (MTO, 2015).

Para Giacomoni (2009), a integração do PPA e a LOA ficam bem explicitadas pelo papel cumprido pela LDO, pois, além de a Lei de Diretrizes Orçamentárias fornecer orientação para a elaboração dos orçamentos anuais, ela também destaca, da programação plurianual, as prioridades e metas a serem cumpridas em cada LOA.

Na Figura 2, temos um resumo do processo integrado de planejamento e orçamento.

(22)

A fim de conferir racionalidade, eficiência e transparência aos processos de elaboração, execução e controle do orçamento público (MTO, 2015), foram estabelecidos os seguintes princípios orçamentários (Brasil, 1964) (Brasil, 1988):

 Unidade ou Totalidade: cada ente governamental deve elaborar uma única LOA;

 Universalidade: a LOA de cada ente federado deve conter todas as receitas e despesas de todos os Poderes, órgãos, entidades, fundos e fundações instituídas e mantidas pelo poder público;

 Anualidade ou Periodicidade: o exercício financeiro coincide com o ano civil (1º de janeiro a 31 de dezembro) e corresponde ao período de tempo ao qual se referem à previsão das receitas e fixação das despesas documentadas na LOA;

 Exclusividade: a LOA não conterá nada além da previsão das receitas e fixação das despesas;

 Orçamento Bruto: o registro das receitas e despesas deve ser feito com seu valor total e bruto, sem quaisquer deduções;

 Não Vinculação da Receita de Impostos: é vedada a vinculação de receitas de impostos a órgão, fundo ou despesa, salvo exceções estabelecidas pela CF.

2.1.1 Classificação Orçamentária

Há 2 (dois) tipos de classificação orçamentária: as Receitas e as Despesas. Porém, para este trabalho, apenas será abordada a classificação orçamentária Despesa.

Despesas

Com a finalidade de permitir um melhor detalhamento dos gastos públicos (Slomski, 2008), a despesa orçamentária possui uma classificação estruturada, subdividida em Programação Qualitativa e Programação Quantitativa.

Segundo o MTO (2015), a Programação Qualitativa é composta pelas seguintes características:

a. Esfera: informa sobre a qual orçamento pertence a despesa. O orçamento pode ser: Fiscal, da Seguridade Social ou de Investimento;

(23)

b. Classificação Institucional: fornece a informação sobre qual órgão e unidade orçamentária realiza a despesa. É definida por um código de cinco dígitos, dos quais os dois primeiros representam o órgão e o restante, a unidade orçamentária;

c. Classificação Funcional: dividida em função e subfunção, essa classificação responde à indagação “em que” área de ação aquela despesa será realizada. É definida por um código de cinco dígitos, os dois primeiros representam a função, o restante, a subfunção;

d. Classificação Programática: toda ação do governo está estruturada em programas orientados para atingir o objetivo do período correspondente ao PPA. Os programas podem ser temáticos ou de gestão, manutenção e serviços ao Estado. São identificados por um código de quatro dígitos e contêm uma ou mais ações. As ações são operações das quais resultam produtos que contribuem para o objetivo de um programa. Cada ação é identificada por um código alfanumérico de oito dígitos. O primeiro dígito identifica o tipo da ação, podendo ser um projeto, uma atividade ou uma operação especial. Do segundo ao quarto, é detalhada a ação. Os quatro últimos identificam o subtítulo da ação. Estes são utilizados especialmente para descrever a localização da ação.

A Programação Quantitativa define a programação física, ou seja, quanto será desenvolvido e também a programação financeira, que determina o que adquirir e com quais recursos. Essas informações quantitativas estão definidas nos seguintes blocos:

a. Metafísica da Ação: define, em nível de subtítulo, a quantidade do produto que será ofertada em uma determinada ação;

b. Natureza da Despesa: semelhante à natureza da receita, também é definida por um código numérico de oito dígitos, porém, subdivididos em cinco níveis: categoria econômica (1º dígito), grupo de natureza da despesa (GND) (2º dígito), modalidade da aplicação (3º e 4º dígitos), elemento de despesa (5º e 6º dígitos) e subelemento (7º e 8º dígitos);

c. Identificador de Uso (IDUSO): destina-se a indicar se os recursos compõem contrapartida nacional de empréstimos ou de doações ou destinam-se a outras aplicações;

d. Identificador de Doação e de Operação de Crédito (IDOC): identifica as doações de entidades internacionais ou operações de crédito contratuais;

e. Identificador de Resultado Primário: tem como finalidade auxiliar a apuração do resultado primário previsto na LDO.

(24)

O autor Sanches (2004) descreve que as despesas públicas no orçamento brasileiro, segundo a estrutura técnico-jurídica vigente, são executadas em quatro estágios/etapas distintas, são elas: fixação ou planejamento, empenho, liquidação e pagamento.

A etapa de fixação ou planejamento da despesa pode ser definida como a materialização pela publicação da Lei Orçamentária Anual ou do ato de abertura do crédito adicional (SANCHES, 2004).

O estágio empenho, segundo a Lei nº 4.320, define que “é o ato emanado de autoridade competente que cria para o Estado obrigação de pagamento pendente ou não de implemento de condição” (Brasil, 1964).

A etapa de liquidação consiste na verificação do direito adquirido pelo credor, tendo por base os títulos e documentos comprobatórios do respectivo crédito, e tem por objetivo apurar a regularidade do objeto, a importância e a quem se deve o pagamento (Brasil, 1964).

O estágio final, o pagamento, é constituído pela formalização do despacho do ordenador de despesa, autorizando-o, e, pela entrega de numerário ao credor por meio de cheque nominativo, ordens de pagamentos ou crédito em conta. Esta etapa só poderá ser efetuada após a etapa de liquidação da despesa (SANCHES, 2004).

A elaboração da Lei Orçamentária Anual e as alterações concretizadas ao longo do exercício são realizadas no Sistema Integrado de Planejamento e Orçamento – SIOP. O Sistema Integrado de Administração Financeira – SIAFI contabiliza os valores orçados, bem como as operações e os registros relacionados a cada etapa da execução da despesa. O SIOP atualiza o SIAFI com as informações das dotações vigentes na Lei Orçamentária Anual (Brasil, 2012).

Ao longo do exercício financeiro, cada rubrica é anotada para permitir a verificação de quanto foi orçado (dotação inicial; etapa de fixação ou planejamento), quanto foi empenhado (empenho), quanto foi liquidado (liquidação) e quanto foi pago efetivamente (pagamento).

De acordo com ARAÚJO e CRUZ et al. (2012),

[...] a base para a compreensão do orçamento público é o sistema de classificação. É por meio desse sistema que o orçamento é organizado, ou seja, segmentado com base em critérios. Essa estrutura permite que os técnicos e gestores públicos consigam estratificar os dados e estabelecer as relações entre os valores financeiros do orçamento e os fenômenos da administração pública associados (ex. gasto em quê, para quê, sob a responsabilidade de quem).

(25)

A Figura 3 apresenta um exemplo de estrutura de despesa em que é possível considerar um item de despesa da LOA de 2013 com os seus respectivos atributos qualitativos e quantitativos.

Figura 3 - Item de Despesa da LOA de 2013. Fonte: (Brasil, 2012).

A execução orçamentária tem uma estrutura composta fundamentalmente dos mesmos elementos existentes na estrutura de classificações utilizada na elaboração do orçamento, ou seja, de uma lista de itens de despesa com seus respectivos valores. Deste modo, cada item é representado por um código de 44 dígitos que os vinculam aos critérios de classificação da despesa. No Manual Técnico do Orçamento 2015 – MTO podem ser encontrados o significado de cada critério de classificação e os códigos correspondentes (MTO, 2015).

(26)

2.2 Dados Governamentais Abertos

Segundo a Open Definition8: “dado aberto é um dado que pode ser livremente utilizado, reutilizado e redistribuído por qualquer um”. Essa definição ainda contém alguns pontos importantes:

Disponibilidade e acesso: o dado necessita estar disponível, de preferência por meio de download na Web, por inteiro e um custo acessível; bem como deve estar num formato conveniente e modificável;

Reúso e redistribuição: o dado precisa ser fornecido em condições de reutilização e redistribuição, e que permita o cruzamento com outros conjuntos de dados;

Participação universal: todos podem utilizar, reutilizar e redistribuir, não havendo discriminação contra áreas de atuação, pessoas ou grupos;

Dados Abertos, em especial os governamentais, possuem grande potencial econômico e social, porém ainda pouco explorado. Tanto as organizações quanto os indivíduos coletam uma infinidade de diferentes tipos de dados para executar suas tarefas. O governo tem um papel importante nesse contexto, tanto pela quantidade dos dados que coleta como pelo princípio de que esses tais dados são de finalidade pública.

Governo Aberto é um recente movimento para uma maior abertura e transparência no governo e dados abertos são uma parte importante dessa grande tendência. O setor governamental produz enorme quantidade de informação, como parte de suas operações diárias, que abragem diversas áreas como economia, turismo, saúde, entre outras, que são importantes, com um cunho do benefício desse movimento para vários grupos de indivíduos e organizações, inclusive o próprio governo (MAALI et al. 2010).

Costumeiramente, os termos Governo Aberto e Dados Governamentais Abertos são tratados como sinônimos, porém, Governo Aberto é um conceito mais amplo. Significa a disponibilização de todas as informações (em qualquer formato), que estejam sob a responsabilidade de um governo. Isto não implica, necessariamente, a utilização da tecnologia da informação ou formatos pré-estabelecidos (LINKEDDATABOOK, 2011).

Há um grande número de iniciativas em que os dados abertos estão gerando grande valor, e pode existir potencial para muito mais. São citados alguns exemplos como: transparência e controle democrático; participação popular; empoderamento dos cidadãos; inovação; melhores ou novos produtos e serviços privados; medição do impacto das políticas; melhora na efetividade e eficiência de serviços governamentais, entre outras.

(27)

Os Dados Abertos Governamentais (DAGs) devem conter 3 (três) características peculiares, também chamadas de leis9, que são:

1. Se o dado não pode ser encontrado e indexado na Web, ele não existe;

2. Se não estiver aberto e disponível em formato compreensível por máquina, ele não pode ser reaproveitado;

3. Se algum dispositivo legal não permitir sua replicação, ele não é útil;

Em 2007, além das leis, o portal Open Government Data10, que congrega interessados em discutir as iniciativas de Dados Governamentais Abertos, define que os dados governamentais são considerados abertos quando publicados de acordo com os seguintes princípios:

1. Completos: Todos os dados públicos são disponibilizados. Dados são informações eletronicamente gravadas, incluindo, mas não se limitando a, documentos, bancos de dados, transcrições e gravações audiovisuais. Dados públicos são dados que não estão sujeitos a limitações válidas de privacidade, segurança ou controle de acesso, reguladas por estatutos.

2. Primários: Os dados são publicados na forma coletada na fonte, com a mais fina granularidade possível e não de forma agregada ou transformada.

3. Atuais: Os dados são disponibilizados tão rápido quanto necessário para preservar o seu valor.

4. Acessíveis: Os dados são disponibilizados para o público mais amplo possível e para os propósitos mais variados possíveis.

5. Processáveis por máquina: Os dados são razoavelmente estruturados para possibilitar o seu processamento automatizado.

6. Acesso não discriminatório: Os dados estão disponíveis a todos, sem que seja necessária identificação ou registro.

7. Formatos não proprietários: Os dados estão disponíveis em um formato sobre o qual nenhum ente tenha controle exclusivo.

8. Livres de licenças: Os dados não estão sujeitos a regulações de direitos autorais, marcas, patentes ou segredo industrial. Restrições razoáveis de privacidade, segurança e controle de acesso podem ser permitidas na forma regulada por estatutos.

Apesar de as leis e os princípios terem sido pensados e propostos para os Dados Abertos Governamentais, pode-se dizer que eles se aplicam também aos Dados Abertos de modo geral.

Para Diniz (2010), “A disponibilização de dados governamentais abertos permite que as informações sejam utilizadas da maneira e conveniência do interessado de tal forma que elas

9 http://eaves.ca/2009/09/30/three-law-of-open-government-data/ 10 www.opengovdata.org/home/8principles

(28)

possam ser misturadas e combinadas para agregar mais valor aos dados”. Para o autor, o objetivo de que as informações públicas sejam disponibilizadas segundo as regras dos dados abertos é “superar as limitações existentes para que usuários de informações do serviço público possam facilmente encontrar, acessar, entender e utilizar os dados públicos segundo os seus interesses e conveniências”.

Não é sem motivo, portanto, que o W3C define dados governamentais abertos como “a publicação e disseminação das informações do setor público na Web, compartilhados em formato bruto e aberto, compreensíveis logicamente, de modo a permitir sua reutilização em aplicações digitais desenvolvidas pela sociedade”.

Além disso, o W3C entende que os governos devem incentivar os cidadãos a usarem os dados abertos disponíveis pelos governos, ou seja, eles devem ser estimulados a reutilizarem os dados conforme as suas necessidades e vontades. Diniz (2010) resume o objetivo desse incentivo: “Não há valor na disponibilização de dados governamentais abertos se a sociedade não tem interesse em reutilizá-los”.

Um ponto importante a ser destacado diz respeito à relação entre transparência e DAG. A defesa dos dados abertos como promotor de transparência se deve às possibilidades de tornar os dados governamentais acessíveis a todos, eliminando as restrições referentes à tecnologia, legislação e acessibilidade para garantir o irrestrito acesso e utilização dos dados públicos pelos cidadãos.

A relevância da oferta de dados abertos no setor público encontra fundamento no interesse público que envolve as informações governamentais e na regulação que envolve a questão. A maioria dos Estados de Direito Constitucional adotam o princípio da publicidade que entende a transparência dos dados governamentais como a regra e o sigilo como exceção. Para Bobbio, a república democrática “exige que o poder seja visível (...) as reuniões da assembleia devem ser abertas ao público de modo a que qualquer cidadão a elas possa ter acesso” (BOBBIO, 1987).

Para Ribeiro (2009), existe uma disputa entre diversas visões da transparência: as distintas visões apresentam a transparência como sinônimo do princípio da publicidade; de accountability que, de modo geral, se refere à prestação de contas e à definição dos objetos sobre as quais se prestarão contas juntamente com a sua responsabilização (LEVY, 1999); ou openness que pode ser definido como: “abertura para o fornecimento de informação, entendida como o fornecimento livre e universal de informações para seu público-alvo” (VAZ, 2002). Em adição a essas visões, compreende que a transparência também pode ser entendida a partir da visão de dados governamentais abertos.

(29)

2.3 Ontologias

Ontologia é um ramo da filosofia que lida com a natureza e a organização do ser. Segundo Ferreira (1988), ontologia é uma “parte da Filosofia que trata do ser enquanto ser, isto é, do ser concebido como tendo uma natureza comum que é inerente a todos e a cada um dos seres”.

Esse termo foi recentemente adotado também pelas comunidades de Inteligência Artificial e Gestão do Conhecimento para se referir a conceitos e termos que podem ser utilizados para descrever alguma área do conhecimento ou construir uma representação.

Entre as diversas definições de ontologia existentes, uma bastante interessante e mais usual é a de Gruber (1993), “uma ontologia é uma especificação formal e explícita de uma conceitualização compartilhada”. Quando se refere à palavra “conceitualização” quer se aludir a um modelo abstrato de algum fenômeno que identifique conceitos relevantes desse fenômeno. Uma especificação “explícita” significa que os conceitos e as limitações do uso desses conceitos devem ser definidos de forma explícita. A palavra “formal” refere-se ao fato de que a ontologia deve ser passível de ser processada por uma máquina. Por fim, o termo “compartilhada” reflete a noção de que a ontologia captura um conhecimento consensual, isto é, esse conhecimento não deve ser restrito a alguns indivíduos, mas aceito por um grupo de pessoas (FENSEL, 2001).

Ontologias possuem várias utilizações. Uschold et al. (1996) definem categorias para utilização, listadas na Tabela 1.

Tabela 1 - Categorias de uso de ontologias para a área da Ciência da Computação.

Categorias de Utilização Aplicação

Comunicação Provê um entendimento compartilhado entre as pessoas com necessidades e pontos de vista diferentes.

Interoperabilidade Permite a integração de ambientes de ferramentas de software diferentes.

Engenharia de Sistemas Facilita o processo de identificação dos requisitos dos sistemas e entendimento das relações entre os componentes do sistema.

Fonte: (Uschold et al., 1996)

O uso de ontologias, no contexto da Web Semântica, requer uma linguagem de ontologia compatível com a Web, com uma sintaxe e uma semântica bem definida, suporte ao raciocínio eficiente e expressivo. Também requer a implementação explícita da semântica das informações para prover o suporte necessário para o processamento de dados por parte das máquinas, ou seja,

(30)

o conteúdo abordado deve estar munido de contexto e vocabulário comuns. As ontologias têm sido utilizadas com a finalidade de prover informações semânticas. As linguagens de ontologia para Web são, geralmente, expressas em uma linguagem lógica, a lógica descritiva, garantindo as distinções entre as classes, propriedades e relações, evitando ambiguidades. Uma ontologia define formalmente os termos usados para descrição e representação deste domínio.

Há elementos básicos que constituem uma ontologia que são as classes, slots, axiomas e instâncias (CHAUDHRI et al., 1998). Classes (conceitos ou elementos do domínio) são coleções de objetos que possuem propriedades similares. Slots descrevem atributos e propriedades de classes. Instâncias são membros individuais de classes (NOY et al., 2004). E por fim, os axiomas consistem em restrições sobre determinado domínio (GUARINO, 1998).

Para que as ontologias sejam criadas e representadas formalmente, elas devem ser descritas em uma linguagem formal. Uma das linguagens para a construção de ontologias é a OWL (Web Ontology Language) (MCGUINNESS et al., 2004), uma linguagem de definição de ontologias, executável por computadores, incluindo nessas as definições de classes, propriedades e axiomas (SMITH et al., 2004).

2.3.1 Metodologias para construção de ontologias

Não obstante uma grande variedade de ontologias já ter sido desenvolvida por distintas comunidades, não há conformidade com relação ao processo metodológico de desenvolvimento de ontologias. A escolha de uma metodologia para a construção de uma ontologia está relacionada aos objetivos finais que se deseja alcançar com sua construção, como o detalhamento dos processos utilizados e sua manutenção (MORAIS e AMBRÓSIO, 2007).

Metodologias de desenvolvimento de ontologias existem no intuito de sistematizar a construção e manipulação de ontologias (MORAIS e AMBRÓSIO, 2007). Todas possuem abordagens e características diversas. Existem metodologias para construção de ontologias de forma colaborativa, para aprendizado sobre a estrutura de ontologias e para a integração de ontologias. Entretanto, nenhuma delas ainda é totalmente madura, principalmente se comparadas com metodologias de Engenharia de Software.

Para Guimarães (2002), uma prática muito comum entre os desenvolvedores de ontologias é passar diretamente do passo de aquisição de conhecimento para o passo de implementação, o que pode gerar alguns problemas, como:

 Os modelos conceituais da ontologia ficam implícitos no código da implementação;

 Dificuldades de reúso da ontologia, pois o projeto da ontologia e as decisões de projeto estão implícitos no código.

(31)

 Problemas de comunicação devido às dificuldades que o especialista no domínio da ontologia tem para entender o código da implementação. Isso é um sério problema, pois ele tende a ser a principal fonte de informação sobre o domínio.

 Dificuldades no desenvolvimento de ontologias complexas, pois a passagem da aquisição de conhecimento para a implementação é muito abrupta.

 Dependendo da linguagem escolhida para a codificação pode-se limitar a capacidade de descrição conceitual do domínio da ontologia.

Dessa forma, faz-se necessária a adoção de uma metodologia para, assim, reduzir as dificuldades acima citadas.

Na literatura, há algumas metodologias para construção de ontologias, que são: a metodologia de Gruninger e Fox, também conhecida como TOVE (Toronto Virtual Enterprise) (GRUNINGER e FOX, 1995); método de Uschold e King ou metodologia Enterprise Ontology (USCHOLD e KING, 1995); metodologia Methontology (FERNANDEZ, GOMEZ-PEREZ e JURISTO, 1997); metodologia On-To-Knowledge (STAAB et al., 2001); método 101 (NOY e McGUINNESS, 2001). Há outros métodos como Sensus (SWARTOUT et al., 1996); método Cyc (REED e LENAT, 2002); método Kactus (BERNARAS, LARESGOITI e CORERA, 1996), entre outras.

A seguir, serão explicadas algumas das metodologias utilizadas para desenvolvimento de ontologias:

Metodologia de Gruninger e Fox

Essa metodologia foi proposta por Michael Gruninger e Mark Fox em 1995 (GRUNINGER e FOX, 1995), tendo como base para o seu desenvolvimento a experiência obtida no projeto Toronto Virtual Enterprise – Tove. Ela é formada pelas seguintes etapas:

o Definir os cenários motivadores – Identifica possíveis problemas que demandem uma nova ontologia. O cenário motivador também fornece intuitivamente um conjunto de soluções possíveis para o problema.

o Definir informalmente questões de competência – Dado o cenário motivador, um conjunto de perguntas irão surgir que necessitarão de uma ontologia para que elas sejam respondidas. Essas perguntas são as questões de competência da ontologia. Elas não são expressas em linguagem formal.

(32)

o Especificação em lógica de primeira ordem da terminologia – Uma vez que as questões de competência foram definidas informalmente a fim de propor ou estender uma ontologia, a terminologia da ontologia deve então ser especificada usando lógica de primeira ordem ou equivalente.

o Especificar as questões de competência formalmente – Uma vez que foram definidas informalmente as questões de competência e a terminologia da ontologia, as questões de competência são definidas em linguagem formal.

o Especificação formal dos axiomas – Criação das regras, descritas em linguagem formal, a fim de definir a semântica dos termos e relacionamentos da ontologia. o Verificação através dos teoremas de completude – Através desses teoremas são

fornecidos meios de determinar a extensibilidade da ontologia, fazendo explicitamente o papel que cada axioma executa no teorema.

Metodologia de Uschold e King

O método foi proposto inicialmente por Mike Uschold e Martin King em 1995 (USCHOLD e KING, 1995) e estendido em 1996 por Mike Uschold e Michael Gruninger (USCHOLD e GRUNINGER, 1996), na experiência de desenvolvimento da Enterprise Ontology. A seguir são descritas as etapas da metodologia:

o Identificação do propósito – Identificar o porquê da construção da ontologia e as suas intenções de uso.

o Construção da ontologia – Essa etapa é subdividida em 3 (três) estágios:

 Captura da ontologia – Identificar conceitos e relacionamentos do domínio de interesse para produzir uma definição precisa dos mesmos.  Codificação – Codificar a ontologia em uma linguagem formal.

 Integração com ontologias existentes – Integrar a nova ontologia com as ontologias existentes.

o Avaliação – Identificar critérios técnicos como verificação da especificação de requisitos, validação das questões de competência, comparação com o mundo real, etc.

o Documentação – Deve conter toda a descrição do processo, podendo ter formato diferente para tipos distintos de ontologias, mas que será determinante para o reúso da ontologia desenvolvida.

(33)

Uma das desvantagens desta metodologia é que ela não descreve de maneira precisa as técnicas para executar as diferentes atividades. O nível de detalhamento da metodologia é baixo, só oferecendo princípios gerais muito vagos.

Metodologia Methontology

A metodologia Methontology foi desenvolvida no laboratório de Inteligência Artificial da Universidade de Madrid para a construção de ontologias (LOPÉZ, 1997) e (PÉREZ, 1998). A Methontology é baseada no processo padrão IEEE para o desenvolvimento de software (GOMÉZ e LOPÉZ, 2004). Diferentemente de outras, esta metodologia descreve a identificação do processo de desenvolvimento da ontologia, dividindo-o em tipos de atividades a serem desenvolvidas; descreve o ciclo de vida de uma ontologia, a partir da evolução de protótipos, assim como técnicas específicas para cada atividade executada. Suas atividades principais são formadas pelo conjunto de etapas:

o Atividades de gerenciamento de ontologias - elaboração de cronogramas, controle, garantia da qualidade.

o Atividades ligadas ao desenvolvimento de ontologias - estudo do ambiente, estudo de viabilidade, especificação, conceitualização, formalização, implementação, manutenção, uso.

o Atividades de suporte/manutenção - aquisição do conhecimento, avaliação, integração, documentação, integração, gerência da configuração, alinhamento.

Essas atividades podem ser apoiadas pelo ODE (Ontology Development Environment), que fornece apoio automatizado ao processo de desenvolvimento de ontologias. Os autores utilizam técnicas de elicitação bem semelhantes às que têm sido praticadas no levantamento de requisitos de software (BREITMAN e LEITE, 2003), por exemplo, entrevistas estruturadas, questionários, e leitura de documentos do domínio. É interessante notar que a Methontology realiza uma previsão para o reúso de conceitos de outras ontologias por meio do método de reengenharia de ontologias.

Metodologia On-To-Knowledge

Esta metodologia permite construir ontologias para aplicações de gestão do conhecimento, sendo altamente dependente da aplicação (STAAB et al., 2001). Ela é baseada em 4 (quatro) fases: kick-off, refinamento, avaliação e manutenção.

(34)

o Fase kick-off - os requisitos para construção da ontologia são capturados e especificados; questões de competência são identificadas, ontologias potencialmente reutilizáveis são estudadas e uma primeira versão da ontologia é construída.

o Fase refinamento - uma ontologia mais madura é construída a partir da primeira versão.

o Fase avaliação - os requisitos e as questões de competência são checados e a ontologia é colocada em ambiente de produção.

o Fase manutenção - envolve atividades de adaptação da ontologia às mudanças nos requisitos e correção de erros.

Método 101

Método 101, desenvolvido por Natalya Noy e Deborah McGuiness, consiste de “um guia para a criação da sua primeira ontologia” (NOY e MCGUINESS, 2001) e tem a função de um roteiro com tópicos a serem observados na construção de uma ontologia. São discutidas questões gerais, bem como o possível processo de construção de uma ontologia, utilizando uma abordagem iterativa, ou seja, parte de uma versão inicial da ontologia, que será revisada e refinada durante o processo.

Noy e McGuinness (2001) ressaltam algumas regras consideradas fundamentais na elaboração de uma ontologia:

 Não existe apenas uma forma correta de modelar um domínio, sempre há alternativas viáveis. A melhor solução depende da aplicação que se tem em mente e as extensões desejadas;

 O desenvolvimento de uma ontologia é um processo iterativo;

 Conceitos na ontologia devem estar ligados a objetos - físicos ou lógicos - e relacionamentos em seu domínio de interesse. Estes são mais suscetíveis de serem substantivos (objetos) ou verbos (relacionamentos) em sentenças que descrevem seu domínio.

Noy e McGuinness (2001) também lembram que uma ontologia é um modelo do mundo real e os conceitos dessa ontologia devem refletir essa realidade.

(35)

2.4 Padrões da Web Semântica

Em 2001, surgiu a ideia da Web Semântica, em um artigo publicado na revista Scientific American pelo autor Tim Berners-Lee e colaboradores (BERNERS-LEE et al., 2001). Os autores discutem que a Web Semântica é uma extensão da Web atual, a qual permite que a informação sobre páginas e recursos seja recuperada com significado bem definido, fazendo com que humanos e computadores trabalhem de forma otimizada. Dessa forma, as máquinas podem “entender” os dados que elas apenas exibem na Web atual.

A recuperação inteligente de informação das páginas Web é uma das principais contribuições da Web Semântica. A utilização dos padrões e das ferramentas definidas pela Web Semântica, muitas vezes, eliminam, por parte dos usuários, o trabalho de interpretar, combinar e filtrar as informações advindas das diversas fontes de informações. Ademais, são levadas em consideração informações implícitas nas fontes de dados e o contexto do usuário na formulação de pesquisas.

A semântica é utilizada com uma ideia da natureza do significado (ALLEMANG e HENDLER, 2008) e se refere à informação sobre o conteúdo de documentos disponíveis na Web, na qual essa informação é denominada de Metadado (dado sobre dados) e é processável por máquinas (ANTONIOU e HARMELEN, 2008).

Como acontece na Web comum, cada camada da Web Semântica foi pensada para trabalhar complementando a camada inferior e de forma independente das superiores (SANTOS e ALVES, 2009). Na Figura 4, é possível conferir a arquitetura em camadas da Web Semântica.

(36)

A camada inferior está relacionada ao caráter global da Web. Unicode é uma codificação padrão de caracteres que permite a manipulação consistente de cadeias de caracteres provenientes da grande maioria dos sistemas de escrita que existem. Quanto ao URI (Uniform Resource Identifier) trata-se de um padrão de identificação de recursos que já é utilizado na Web tradicional. Há alguns tipos de URI e o mais conhecido é o URL (Uniform Resource Locator) ele é um nome ou identificador que representa um endereço único e global de acesso a um recurso na Web. URI utiliza espaços de nomenclatura para identificar o domínio ao qual pertence o recurso, evitando a repetição de nomes. É bastante útil para identificar recursos em ambientes intrinsecamente descentralizados, como é o caso da Web (RAMALHO et. al., 2007).

A camada sintática opera com a linguagem XML (eXtensible Markup Language), é de fácil utilização, permite escrever documentos estruturados com facilidade pelo usuário. É bastante empregada no transporte de dados pela Web (W3C, 2012).

Na camada de dados, as entidades deverão ser representadas formalmente de uma maneira bem definida, podendo ser identificados seus atributos e relacionamentos com outras entidades. Nessa camada tem-se: o RDF (Resource Description Framework), que é um modelo de dados básico que descreve assertivas sobre recursos na Web. Essa camada é baseada na linguagem XML, porém não é dependente da mesma, visto que existem outras representações em que é possível escrever RDF. O RDF-S (RDF Schema) é uma extensão semântica do modelo RDF e provê primitivas de modelagem para objetos na Web como: classes, subclasse, propriedades e restrições de domínio.

Na quarta camada, a camada ontologia, visa à representação do conhecimento que se dá de forma distribuída, diferentemente dos sistemas tradicionais de IA. Nesta formalização descentralizada dos diferentes domínios do conhecimento, a Web Semântica faz uso de ontologias.

A camada lógica apresenta todo o processo dedutivo. É responsável pelo tratamento das informações advindas das camadas inferiores, fazendo as inferências lógicas de acordo com as regras declaradas para o modelo de dados.

A camada de prova contém todos os mecanismos de avaliação da veracidade de uma informação. Além disso, é checada a consistência de dados oriundos da Web Semântica.

E por fim, a camada de confiança está relacionada a assinaturas digitais e todo processo de certificação para a credibilidade das fontes de informações acessadas na Web.

A seguir, algumas tecnologias mais relevantes para o desenvolvimento do trabalho serão apresentadas.

(37)

2.4.1 RDF

RDF é sigla para Resource Descripition Framework. O RDF é um padrão no qual é um modelo de dados simples é criado com o objetivo de descrever recursos da Web (MANOLA e MILLER, 2004). O RDF pode ser considerado um elemento chave da Web semântica e possui vários formatos de sintaxe. Seguem alguns exemplos de representações como: XML, Notation 3 (N3) (W3C, 2005), NTriples (W3C, 2001) e Turtle (W3C, 2008).

O RDF é composto por 3 (três) conceitos básicos:

 Os recursos, que correspondem a qualquer entidade, objeto ou coisa que se refere ao que existe no mundo (pessoas, livros, páginas da Web, entre outros) e são identificados através de um endereço único chamado de URI (Uniform Resource Identifiers) (BERNERS-LEE et al., 1998);

 As propriedades, que são características a respeito dessas entidades (idade, título, data de criação, entre outros), também são identificadas através de URIs;

 A sentença, que é formada por um bloco de construção encapsulado em conjuntos de triplas (sujeito – propriedade - valor) (ANTONIOU e HARMELEN, 2008), que pode ser utilizado para fazer declarações sobre esses recursos.

Os documentos em RDF representam dados de uma forma simples para expressar afirmações sobre esses recursos. Como já foi dito, a unidade de informação utilizada por esse modelo é chamada de tripla, que é composta pelos seguintes recursos: sujeito, predicado (propriedade) e objeto, formando assim uma afirmação (statement). Para um recurso ser identificado no contexto apresentado pela Web Semântica é atribuído a ele um Uniform Resource Identifier (URI), ou seja, o sujeito, predicado e objeto estão associados a um identificador de recursos. É importante ressaltar que o valor de um objeto também pode ser um literal. Para um melhor entendimento, a Figura 5 apresenta um exemplo de uma tripla que é utilizada no vocabulário da LOA.

Figura 5 - Exemplo de uma tripla RDF. Fonte: (LOA, 2012).

Um conjunto de triplas pode ser visualizado como um grafo, no qual uma tripla é representada por dois “nós” e a aresta entre eles. No entanto, um arquivo RDF é constituído por várias triplas interligadas, que resultam em afirmações a respeito dos relacionamentos entre recursos. Cada nó pode ser um URI que identifica um recurso, um literal, ou até mesmo um nó em branco.

Referências

Documentos relacionados

No Município da Póvoa de Varzim é na Biblioteca Municipal Rocha Peixoto que está sediada a principal actividade editorial do Município, pelo que passaria a uma breve

Foram encontradas, também, as pes- quisas de Soares (2007), sob o título “O Sistema Nacional de Avaliação da Educa- ção Superior e a Gestão Estratégica das

A cirurgia, como etapa mais drástica do tratamento, é indicada quando medidas não invasivas como dietas restritivas e a prática regular de exercícios físicos

As análises serão aplicadas em chapas de aços de alta resistência (22MnB5) de 1 mm de espessura e não esperados são a realização de um mapeamento do processo

Estudos sobre privação de sono sugerem que neurônios da área pré-óptica lateral e do núcleo pré-óptico lateral se- jam também responsáveis pelos mecanismos que regulam o

O fato de a porcentagem de mulheres no sistema prisional ser baixa (6,3% no Brasil e entre 0% e 29,7% no mundo) faz com que suas necessidades não sejam consideradas

A democratização do acesso às tecnologias digitais permitiu uma significativa expansão na educação no Brasil, acontecimento decisivo no percurso de uma nação em

A ferramenta bem como a metodologia tem sido utilizada em projetos de P&D, por em disciplinas regulares por alunos da Pós-graduação em Engenharia e Gestão do Conhecimento (EGC)