• Nenhum resultado encontrado

Modelagem e representação semântica de dados governamentais abertos da Previdência Social brasileira

N/A
N/A
Protected

Academic year: 2021

Share "Modelagem e representação semântica de dados governamentais abertos da Previdência Social brasileira"

Copied!
171
0
0

Texto

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO MESTRADO EM CIÊNCIA DA INFORMAÇÃO

UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE ARTE E COMUNICAÇÃO SOCIAL

DURVAL VIEIRA PEREIRA

MODELAGEM E REPRESENTAÇÃO SEMÂNTICA DE DADOS GOVERNAMENTAIS ABERTOS DA PREVIDÊNCIA SOCIAL BRASILEIRA

Niterói 2014

(2)

DURVAL VIEIRA PEREIRA

MODELAGEM E REPRESENTAÇÃO SEMÂNTICA DE DADOS GOVERNAMENTAIS ABERTOS DA PREVIDÊNCIA SOCIAL BRASILEIRA

Dissertação de Mestrado apresentada como requisito parcial para obtenção do título de Mestre em Ciência da Informação do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal Fluminense. Orientador: Profº. Drº. Carlos Henrique Marcondes

NITERÓI 2014

(3)

Pereira, Durval Vieira

P436 Modelagem e representação semântica de dados governamentais abertos da Previdência Social brasileira / Durval Vieira Pereira. – 2014.

168 f. : il.

Orientador: Carlos Henrique Marcondes.

Dissertação (Mestrado em Ciência da Informação) – Universidade Federal Fluminense, Departamento de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2014.

1. Modelagem conceitual. 2. Dados governamentais abertos. 3. Web Semântica. 4. Acidente do trabalho. 5. Previdência Social.

I. Marcondes, Carlos Henrique. II. Universidade Federal Fluminense. Departamento de Ciência da Informação. Programa de Pós-Graduação em Ciência da Informação. III. Título.

(4)

DURVAL VIEIRA PEREIRA

MODELAGEM E REPRESENTAÇÃO SEMÂNTICA DE DADOS GOVERNAMENTAIS ABERTOS DA PREVIDÊNCIA SOCIAL BRASILEIRA

Dissertação de Mestrado apresentada como requisito parcial para obtenção do título de Mestre em Ciência da Informação do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal Fluminense.

Aprovada em:________________________________________.

Banca examinadora:

________________________________________ Prof.º Dr. Carlos Henrique Marcondes – Orientador Universidade Federal Fluminense – UFF

________________________________________ Prof.º Dr. Cláudio José Silva Ribeiro – Membro Titular Universidade Federal do Estado do Rio de Janeiro - UNIRIO ________________________________________

Prof.ª Drª Maria Luiza de Almeida Campos – Membro Titular Universidade Federal Fluminense - UFF

________________________________________ Prof.ª Drª Regina de Barros Cianconi – Membro Titular Universidade Federal Fluminense - UFF

________________________________________ Prof.ª Drª Sandra Lúcia Rebel Gomes – Suplente Universidade Federal Fluminense – UFF

________________________________________

Prof.º Dr. Marcos Luiz Cavalcanti de Miranda – Suplente Universidade Federal do Estado do Rio de Janeiro - UNIRIO

Niterói 2014

(5)

Dedico este trabalho a todos que estiveram comigo durante esta jornada e que com paciência me ajudaram a continuar.

(6)

DEDICATÓRIA

Ao meu orientador Marcondes, pela acolhida, pelos ensinamentos, pelo exemplo de profissional e por me mostrar um caminho de estudo.

Aos meus pais por terem criado um ambiente favorável à minha formação.

Aos membros da banca pela disponibilidade e importantes contribuições teórico-metodológicas.

Ao professor Cláudio J. S. Ribeiro pelas parcerias e discussões que tanto contribuíram para o resultado aqui alcançado.

À Suzana Huguenin por me levar sempre a progredir na vida acadêmica. À Daniele Achilles e Fabiana Vilar pelo incentivo, pelas risadas e pelas ajudas em momentos cruciais. Ao Fabiano Cataldo pelo companheirismo e palavras de sabedoria.

Aos funcionários do PPGCI/UFF, principalmente da secretaria Vitor e Luciana, pelo apoio sempre eficiente.

(7)

“Information is a relationship” (BARLOW, 1994)

(8)

RESUMO

Objetiva propor um modelo conceitual dos dados sobre acidentes do trabalho para publicação dos dados governamentais mantidos pela Previdência Social. Busca na literatura modelos conceituais ou vocabulários sobre acidentes do trabalho, analisa o Vocabulário Controlado do Governo Eletrônico (VCGE), o modelo de publicações de dados sobre acidentes do trabalho publicado pela Dataprev e o tesauro e a taxonomia da Organização Internacional do Trabalho (OIT). Identifica a ausência de um modelo conceitual dos dados da Previdência Social para publicação em formato aberto e utiliza as tecnologias de Web Semântica, de forma a torná-las compartilháveis, acessíveis e reutilizáveis. Seleciona e analisa definições de acidente do trabalho e identifica conceitos e relacionamentos. Classifica os conceitos encontrados de acordo com as ontologias UFO-B e DUL. Utiliza o modelo Entidade-Relacionamento para auxiliar na elaboração de um modelo que consiga representar o domínio sobre acidente do trabalho. Constata a necessidade da elaboração de um vocabulário específico para descrever os conceitos sobre acidentes do trabalho como forma de enriquecer a representação dos dados analisados. Representa uma amostra dos dados em RDF, utilizando o modelo conceitual e o vocabulário proposto. Conclui que a elaboração do modelo conceitual e a descrição em RDF pareceram adequadas para organizar e fornecer um nível mínimo de semântica aos dados sobre acidente do trabalho da Previdência Social brasileira.

Palavras-chave: Modelagem conceitual. Dados governamentais abertos. Web Semântica. Acidente do trabalho. Previdência social.

(9)

ABSTRACT

This project studies the conceptualization model about occupational accidents at Social Security for open government data. It conducts research literature to identify conceptual models or vocabulary about workplace accidents from the analysis of E-Government Controlled Vocabulary (VCGE from the Portuguese language), the occupational accident model published by Dataprev and also the taxonomy and thesaurus of International Labour Organization (ILO). It identifies the absence of a conceptual model for Social Security data for publication in an open format using Web Semantics technologies, to make this data sharable, affordable and reusable. It selects and discusses the definitions of occupational accidents by identifying concepts and relationships. It classifies the concepts found in accordance with ontologies UFO-B and DUL. It uses the Entity-Relationship model to assist in developing a model that can represent the domain of occupational accident. It notes the need to develop a specific vocabulary to describe the concepts of occupational accidents as a way to enhance the representation of the data analyzed. It represents part of the data in RDF using the proposed conceptual model and vocabulary. It concludes that the development of the conceptual model and description in RDF seemed appropriate to organize and provide a minimum level of semantic data on occupational accident at Brazilian Social Security.

Keywords: Conceptual modeling. Open Government Data. Semantic Web. Occupational accident. Social Security.

(10)

LISTA DE FIGURAS

Figura 1 Modelo de construção do conceito... 33

Figura 2 Triângulo do conceito... 34

Figura 3 Exemplo de Diagrama ER... 44

Figura 4 Evolução da Web... 49

Figura 5 Arquitetura da Web Semântica... 49

Figura 6 URI na representação de um recurso... 51

Figura 7 Dados em XML sobre acidente do trabalho... 52

Figura 8 Grafo de triplas (sujeito, predicado e objeto)... 55

Figura 9 Expressividade semântica de instrumentos de representação do conhecimento... 60

Figura 10 Taxonomia das categorias básicas da DOLCE... 62

Figura 11 Visão parcial da Ontologia DUL... 63

Figura 12 Fragmento da UFO-B: Objetos e Eventos... 64

Figura 13 Evolução da Web Semântica com os Dados Abertos Interligados... 71

Figura 14 Classificação de dados publicados... 72

Figura 15 Esquema para classificar bases de dados publicados na WEB... 72

Figura 16 Estrutura de LOD das bases de dados do Governo Brasileiro... 73

Figura 17 Diagrama da nuvem de LOD... 73

Figura 18 Página eletrônica do Ligado nos Políticos... 74

Figura 19 Arquitetura para plataforma tecnológica de governo eletrônico... 81

Figura 20 Portal da Transparência do Governo Federal do Brasil... 87

Figura 21 Aplicativo utilizando dados do Data.gov... 98

Figura 22 Aplicativo utilizando dados do Data.gov.uk... 99

Figura 23 Aplicativo utilizando dados do Data.gov.br... 102

Figura 24 Previdência social no VCGE... 106

Figura 25 Descrição temática dos dados de acidente do trabalho publicados no Portal Dados.gov.br... 109

Figura 26 Modelo de domínio sobre acidentes do trabalho, publicado pela Dataprev.... 111

Figura 27 Termos “Previdência Social” e “Acidente do trabalho” no tesauro da OIT.... 113

Figura 28 Termos “Previdência Social” e “Acidente do trabalho” na taxonomia da OIT... 114

(11)

Figura 30 Proposta de diagrama ER da definição 2 sobre acidente do trabalho... 118

Figura 31 Proposta de diagrama ER da definição 3 sobre acidente do trabalho... 120

Figura 32 Proposta de diagrama ER da definição 4 sobre acidente do trabalho... 122

Figura 33 Proposta de diagrama ER da definição 5 sobre acidente do trabalho... 124

Figura 34 Proposta de diagrama ER sobre acidente do trabalho aliados aos dados da Previdência Social... 129

Figura 35 Proposta de diagrama ER dos dados publicados pela Dataprev... 134

Figura 36 XML de acidentes do trabalho ocorridos na cidade do Rio de Janeiro... 134

(12)

LISTA DE QUADROS

Quadro 1 Análise da definição 1 sobre acidente do trabalho... 117

Quadro 2 Análise da definição 2 sobre acidente do trabalho... 118

Quadro 3 Análise da definição 3 sobre acidente do trabalho... 119

Quadro 4 Análise da definição 4 sobre acidente do trabalho... 120

Quadro 5 Análise da definição 5 sobre acidente do trabalho... 123

Quadro 6 Relações utilizadas nas representações... 125

Quadro 7 Termos sobre acidente do trabalho aliados aos dados da Previdência Social... 127

Quadro 8 Classe do objeto... 136

Quadro 9 Propriedades do objeto... 137

Quadro 10 Atributos... 138

Quadro 11 Triplas de RDF propostas com base no diagrama ER... 142

(13)

LISTA DE SIGLAS

AEAT - Anuário estatístico de acidentes do trabalho AEPS - Anuário Estatístico da Previdência Social

ARPANET - Advanced Research Project Agency Network BDTD - Biblioteca Digital de Teses e Dissertações

BFO - Basic Formal Ontology

BRAPCI - Base de Dados Referencial de Artigos de Periódicos em Ciência da Informação CAT - Comunicação de Acidente do Trabalho

CBO - Classificação Brasileira de Ocupações CEGE - Comitê Executivo do Governo Eletrônico CERN - European Organization for Nuclear Research CGU - Controladoria-Geral da União

CID - Classificação Internacional de Doenças

CNAE - Classificação Nacional de Atividades Econômicas CSV - Comma-Separeted Values

DATAPREV - Empresa de Tecnologias e Informação da Previdência Social DGA - Dados Governamentais Abertos

DnS - Descriptions and Situations

DOLCE - Descriptive Ontology for Linguistics and Cognitive Engineering DTD - Document Type Definition

DUL - DOLCE+DnS Ultralite EDM - Europeana Data Model

EIA - Energy Information Administration

e-PING - Padrões de Interoperabilidade de Governo Eletrônico HTML - HyperText Markup Language

INDRA - Infraestrutura Nacional de Dados Abertos INSS - Instituto Nacional de Seguro Social

LAG - Lista de Assuntos do Governo LAI - Lei de Acesso a Informação LOD - Linked Open Data

LOV - Linked Open Vocabularies LPO - Lógica de Primeira Ordem NE - Notas de Escopo

(14)

NPR - National Performance Review

OCDE - Organização para Cooperação e Desenvolvimento Econômico OIT - Organização Internacional do Trabalho

ONG - Organizações Não Governamentais OWL - Web Ontology Language

PDF - Portable Document Format

PNAD - Pesquisa Nacional por Amostra de Domicílios RDF - Resource Description Framework

RDFS - Resource Description Framework Schema SGML - Standard Generalized Markup Language

SISP - Sistema de Administração dos Recursos de Informação e Informática SKOS - Simple Knowledge Organisation Systems

SLTI - Secretaria de Logística em Tecnologia de Informação SRI - Sistemas de Recuperação da Informação

TIC - Tecnologias de Informação e Comunicação TSE - Tribunal Superior Eleitoral

UF - Unidades Federativas

UFO - Unified Foundational Ontology UML - Unified Modeling Language

URI - Uniform Resource Identifier

VCGE - Vocabulário Controlado do Governo Eletrônico WWW - World Wide Web

(15)

SUMÁRIO

1 INTRODUÇÃO... 14

1.1 MOTIVAÇÃO DA PESQUISA... 15

1.2 RECORTE ESCOLHIDO... 19

1.3 QUESTÕES A SEREM RESPONDIDAS... 21

1.4 ORGANIZAÇÃO DA PESQUISA... 22

2 OBJETIVOS... 23

2.1 OBJETIVO GERAL... 23

2.2 OBJETIVOS ESPECÍFICOS... 23

3 ESCOPO E PROCEDIMENTOS METODOLÓGICOS... 24

3.1 ESCOPO... 24

3.2 METODOLOGIA... 24

4 MARCO TEÓRICO... 29

4. 1 REPRESENTAÇÃO DO CONHECIMENTO... 29

4.1.1 Uma visão acerca do conceito... 30

4.1.2 Teoria do conceito... 32

4.1.3 Modelagem conceitual... 38

4.1.4 Modelo Entidade-Relacionamento... 42

4.2 WEB SEMANTICA E SUAS TECNOLOGIAS... 47

4.2.1 Identificando recursos com URI... 51

4.2.2 XML e a descrição de dados... 52

4.2.3 RDF como linguagem de representação de dados... 54

4.2.4 Ontologia e acidente do trabalho como evento... 56

4.2.5 OWL como ontologia para Web Semântica... 67

4.2.6 Dados Abertos Interligados... 70

4.3 ASPECTOS LEGAIS SOBRE ACESSO À INFORMAÇÃO PLÚBICA... 74

4.4 UM OLHAR SOBRE O GOVERNO ELETRÔNICO... 78

4.4.1 Accountability... 84

4.4.2 Transparência em ações públicas... 86

4.5 DADOS GOVERNAMENTAIS ABERTOS... 89

4.5.1 Iniciativas estrangeiras de dados governamentais abertos... 96

(16)

5 INSTRUMENTOS DE REPRESENTAÇÃO DA INFORMAÇÃO SOBRE ACIDENTES DO TRABALHO... 104 5.1 ACIDENTE DO TRABALHO NO VCGE... 104 5.2 ACIDENTE DO TRABALHO NO MODELO DE PUBLICAÇÕES DE

DADOS PUBLICADOS PELA DATAPREV... 110 5.3 ACIDENTES DO TRABALHO NO TESAURO E NA TAXONOMIA DA

OIT... 112

6 EM BUSCA DE UM MODELO A PARTIR DAS DEFINIÇÕES

SOBRE ACIDENTE DO TRABALHO... 116 6.1 ANÁLISE DAS DEFINIÇÕES ACERCA DE ACIDENTES DO

TRABALHO... 116

6.2 MODELO CONCEITUAL SOBRE ACIDENTE DO TRABALHO

ASSOCIADO AOS DADOS DA PREVIDÊNCIA SOCIAL... 126

7 ELABORAÇÃO E REUSO DE VOCABULÁRIOS: A QUESTÃO

SOBRE ACIDENTE DO TRABALHO... 132 7.1 SELEÇÃO DOS DADOS PUBLICADOS PELA DATAPREV... 132

7.2 ELABORAÇÃO DO VOCABULÁRIO SOBRE ACIDENTE DO

TRABALHO... 135

8 DESCRIÇÃO DOS DADOS SOBRE ACIDENTE DO TRABALHO EM

RDF... 140 9 CONSIDERAÇÕES FINAIS E EXPECTATIVAS... 144 REFERÊNCIAS... 147

(17)

1 INTRODUÇÃO

No cenário atual, os governos têm se preocupado em adotar medidas que servem de elo entre os serviços por eles oferecidos e os cidadãos. São investidos diversos recursos na criação e no aprimoramento de práticas de gestão pública com o objetivo de melhorar a qualidade do atendimento, tornando os serviços e as informações disponíveis on-line para o cidadão. Essas iniciativas aliadas às Tecnologias de Informação e Comunicação (TIC) propiciaram a implantação de um novo modelo de gestão pública chamada governo eletrônico1.

A Organização para Cooperação e Desenvolvimento Econômico (OCDE) define, de forma geral, o governo eletrônico como sendo o uso de tecnologias de informação e comunicação, em particular a Internet, enquanto ferramenta para levar a um melhor governo. (OCDE, 2003 apud ALONSO; FERNEDA; BRAGA; 2011).

No Brasil, as iniciativas voltadas para o governo eletrônico intensificaram-se nos anos 90, em consequência do esgotamento do modelo de gestão burocrática. Diniz et al. (2009) afirma que a ideia de governo eletrônico, em alguns casos, está vinculada à modernização da administração pública e na melhoria da eficiência dos processos operacionais e administrativos e, em outros casos, é associada a prestação de serviços públicos eletrônicos.

Entretanto, a visão de que a população é apenas consumidora passiva de serviços e informações disponibilizadas pelo Governo já não atende a realidade da sociedade em geral. Os cidadãos assumiram uma preocupação com a transparência, controle social e participação efetiva nas decisões relacionadas às ações governamentais. (AGUNE, GREGORIO FILHO, BOLLIGER, 2010; DINIZ, 2010; DINIZ et al., 2009).

Diante do exposto, pode-se dizer que o governo eletrônico possui três vertentes: a primeira é modernizar os processos operacionais da gestão pública, a segunda é fornecer serviços públicos aos cidadãos e a terceira é oferecer infraestrutura para habilitar a população a recuperar e reutilizar dados fornecidos pelo Governo. (BREITMAN et al., 2009).

É sobre essa terceira vertente do governo eletrônico que recai um dos aspectos do objeto de estudo: os dados governamentais abertos.

1

Governo eletrônico também é conhecido como: e-gov, e-governo, governo digital, governo virtual, Estado virtual, governança eletrônica. (DINIZ et al., 2009, p. 25)

(18)

O W3C (2009, p. 39) define dados governamentais abertos (DGA) como sendo a publicação de informações do setor público “em formato bruto aberto, de maneira a torná-los acessíveis a todos e permitir sua reutilização, como a criação de mashups2 de dados”.

Os dados governamentais abertos buscam a publicação na Web de informações do setor público em formato bruto e aberto, legíveis não somente por pessoas, mas também inteligíveis por máquinas, de modo a permitir sua reutilização em novas aplicações digitais desenvolvidas pela sociedade.

1.1 MOTIVAÇÃO DA PESQUISA

A Ciência da Informação e a Tecnologia da Informação possuem uma relação de proximidade entre si. Desde o seu objeto de estudo, passando pelo motivo de seu surgimento, até o resultado final de seu objetivo, a Ciência da Informação, como também a Tecnologia da Informação, tem um caminho científico pautado na otimização de fluxos de comunicação e na organização, recuperação e disseminação da informação.

Com base no tema aqui proposto, buscou-se na literatura da área o momento da inserção do Estado (interferência política e análise de informações governamentais) e da tecnologia (estudo e utilização) na Ciência da Informação. Nos textos de Burke (2007), Capurro (2003), Costa (1999), Fernandes (2006), Freire (2006), Freitas (2003), González de Gómez (2002), Hjørland (1998), Marteleto (2009), Saracevic (1996) e Wersig (1993) o Estado e a tecnologia aparecem, de forma explícita ou subtendida, ligados ao surgimento da Ciência da Informação.

Surgida principalmente com cunho bélico, a relação entre o Estado e as tecnologias não parece incluída na Ciência da Informação, porém se destaca como parte de sua formação. Contribuindo, ainda nos dias presentes, para o desenvolvimento deste campo do conhecimento, principalmente, no que tange a organização e recuperação da informação.

É lícito dizer que na visão de muitos teóricos da área, dentre eles Hjørland (1998), o objetivo primordial da Ciência da Informação é a organização e recuperação da informação. Em outras palavras, ela foi criada com este propósito e continua tendo-o como principal fim almejado. Por essa razão, tantas pesquisas na Ciência da Informação ligadas à área tecnológica.

2

Mashup é definido pelo W3C (2009, p. 39) como sendo “a mistura de dados de dois ou mais aplicativos ou fontes de dados diferentes, produzindo pontos de vista comparativos das informações combinadas”.

(19)

A iniciativa dos dados governamentais abertos pode colaborar para o desenvolvimento tecnológico, buscando, por exemplo, formas eficazes de publicação de dados na Web. E pode contribuir também para o aspecto social da Ciência da Informação. Organizar os dados governamentais e facilitar sua recuperação e sua utilização é um dos objetivos da abertura dos dados governamentais, que vai ao encontro de uma das visões sobre o objeto da Ciência da Informação que “é ajudar as pessoas (ou mais amplamente: atores) que estão confusas com a situação do uso do conhecimento (e que ficarão mais confusas por causa do modelo de sociedade pós-moderna).” (WERSIG, 1993, p. 230, tradução nossa).

Birdsall (2005) chama a atenção para a participação crítica que o profissional da informação, em especial o bibliotecário, deve ter perante seu papel político na defesa ao acesso cidadão ao conhecimento, frente ao ambiente de telecomunicações.

A confluência entre a pesquisa e a prática em uma economia política da Biblioteconomia pode fortalecer a profissão bibliotecária para a defesa crítica e para o papel político que deve desempenhar na criação de um novo ambiente de telecomunicações que garanta o acesso da cidadania ao conhecimento. (BIRDSALL, 2005, p. 9).

São escassos os estudos elaborados por profissionais da informação referentes à publicação de dados governamentais abertos, talvez por eles não se identificarem com esse processo de publicação. Deveria ser observada por esses profissionais a questão da seleção e organização desses dados e para quem e com qual objetivo estariam sendo publicados. Isso é uma peça da participação crítica frente aos aspectos políticos, levantados por Birdsall (2005) e, ao mesmo tempo, poderia contribuir para que o processo de publicação dos dados ampliasse seu caráter social, afinal esse é o propósito da iniciativa dos dados governamentais abertos.

O Estado, por sua vez, não deve somente disponibilizar os dados governamentais, faz-se necessário também proporcionar que esfaz-ses dados cheguem aos cidadãos e faz-sejam compreendidos. (VAZ; RIBEIRO; MATHEUS, 2010). Democratizar a informação envolve mais que somente programas para facilitar e aumentar o acesso à informação. “É necessário que o indivíduo tenha condições de elaborar este insumo recebido, transformando-o em conhecimento esclarecedor e libertador, em benefício próprio e da sociedade onde vive”. (BARRETO, 1994, p. 5).

Acredita-se que a publicação dos dados governamentais abertos pode beneficiar as organizações do setor público ou não (por exemplo: empresas privadas, estatísticos, Organizações Não Governamentais - ONGs - e Hackers). Uma vez que utilizam as

(20)

tecnologias da Web Semântica para a interligação dos dados de outros órgãos para prover valor agregado a seus próprios dados, melhorando, desta forma, a usabilidade, visibilidade e valor desses dados.

Trabalhar com dados governamentais abertos possibilita tornar os cidadãos mais informados, criar eleitores conscientes de seu poder, permitindo-os supervisionar o Governo através da transparência pública. Além de promover o uso e reutilização das informações do Governo, criando serviços mais eficientes e amigáveis à população.

Como é afirmado no Manual... (2011, p. 11)

Dados abertos, especialmente os governamentais, são um ótimo recurso ainda muito pouco explorado. Muitos indivíduos e organizações coletam uma ampla gama de diferentes tipos de dados para executar suas tarefas. O governo é particularmente importante nesse contexto, tanto por causa da quantidade e da centralidade dos dados que coleta quanto pelo fato de que tais dados são públicos.

Outro aspecto importante é que a maioria das informações disponibilizadas hoje pelo Governo está publicada em formatos proprietários ou com tecnologia que restringe seu acesso. A mera publicação na Web de dados governamentais não os torna acessíveis e/ou abertos. Isso acarreta, por exemplo, incompatibilidade de equipamentos para uma pessoa que usa um equipamento móvel ou um computador antigo, ou a falta de informações para alguém que usa um computador sem o software proprietário necessário, e barreira de acessibilidade para pessoas com deficiência. (W3C, 2009).

Chen (1990, p. 1) afirma que “conforme nos movemos para uma sociedade cada vez mais orientada para a informação, a determinação de como organizar os dados para maximizar sua utilidade torna-se um problema muito importante”.

Por essa razão, é necessário possibilitar o reuso, ou seja, desagregar, reprocessar e reaplicar esses dados, permitindo novas interpretações e aplicações. Pensando nessa necessidade, o Governo Brasileiro desenvolveu o Portal Brasileiro de Dados Abertos3 para fomentar a publicação de dados governamentais e, ao mesmo tempo, possibilitar a recuperação e reutilização desses dados por cidadãos interessados.

Todavia, percebe-se a dificuldade em se publicar os dados seguindo os princípios dos dados governamentais abertos. Em 4 de março de 2014, o portal apresentava apenas 112 (cento e doze) conjuntos de dados publicados, um número pequeno para a quantidade de órgãos públicos e as informações que geram. Ademais, os conjuntos de dados abertos estavam

(21)

publicados nos seguintes formatos: xls; pdf; xml; csv; zip+cvs; HTML; zip+txt; zip+sas; zip+xls e json. Dentre estes, os formatos pdf. e zip, por exemplo, não são considerados formatos adequados para publicação de dados abertos. Não apresentando nenhum conjunto de dados em formato Resource Description Framework (RDF), formato recomendado pela proposta de dados abertos interligados. (BENNETT; HARVEY, 2009; BERNERS-LEE, 2009). Contudo, sabe-se que o Ministério do Planejamento4 e o Tribunal de Contas do Estado de São Paulo5, publicaram conjuntos de dados em formato RDF. Porém, esses dados não são mostrados junto com os outros formatos existentes e nem facilmente recuperados no portal dados.gov.br.

Segundo Berners-Lee (2009), o padrão RDF conecta melhor que qualquer outro modelo, pois utiliza URIs e assim permite ligação de coisas e conceitos; possibilita que os sistemas independentes possam ser interligados; ocasiona a interoperabilidade; e admite a representação dos dados utilizando diferentes vocabulários.

O RDF é fundamental para o estabelecimento do primeiro nível de “semântica” inteligível por programas, pois embora a eXtensible Markup Language (XML) permita aos usuários adicionar estrutura arbitrária aos seus documentos, não diz nada sobre o que as estruturas significam. Significados são expressos pelo RDF, que codifica em conjuntos de triplas, sendo cada tripla composta por um sujeito, verbo e objeto de uma frase elementar. (BERNERS-LEE; HENDLER; LASSILA, 2001).

Desta maneira, a publicação de dados governamentais abertos deve-se basear na Web Semântica, pois assim os dados receberão significados definidos, com metadados em formato padronizado, possibilitando a compreensão por pessoas e por computadores. A Web Semântica, idealizada por Tim Berners-Lee, visa melhorar a interação entre as páginas (autodescritivas) na Web com os programas.

Souza e Alvarenga (2004, p. 134) afirmam ainda que

O projeto da Web Semântica, em sua essência, é a criação e implantação de padrões (Standards) tecnológicos para permitir este panorama, que não somente facilite as trocas de informações entre agentes pessoais, mas principalmente estabeleça uma língua franca para o compartilhamento mais significativo de dados entre dispositivos e sistemas de informação de uma maneira geral.

As tecnologias da Web Semântica proporcionam o compartilhamento e reutilização de dados de diferentes aplicações, oferecendo tecnologias que descrevam, modelem e permitam

4

Disponível em: <http://www.siop.planejamento.gov.br>. Acesso em: 5 mar. 2014. 5 Disponível em: <http://portaldocidadao.tce.sp.gov.br>. Acesso em: 5 mar. 2014.

(22)

consultas a esses dados. Entretanto, faz necessária a curadoria desses dados para fins de recuperação e reuso e, neste caso, são os modelos que dão estrutura e significado aos dados. Esses fatores evidenciam a necessidade de modelos conceituais e consequentemente da modelagem das relações conceituais. (SALES; SAYÃO; MOTTA, 2012).

Corroborando esse pensamento, Maia e Alvarenga (2013, p. 2) afirmam que com a Web Semântica “surge a necessidade da modelagem conceitual, onde se busca ferramentas para os processos de classificação e relacionamento entre os documentos visando a uma maior eficiência na representação e recuperação do conhecimento”.

Méndez e Greenberg (2012, p. 237) também concordam que são os vocabulários a base da semântica dos dados ligados. Para as autoras, os vocabulários baseados em linguagens de domínio, disciplina ou comunidade, ajudam a resolver problemas relacionados à sobrecarga de informações digitais, bem como auxilia em sua recuperação.

A capacidade de vincular vocabulários diferentes para representação de registros de dados fornece uma infra-estrutura que permite uma recuperação de informação mais eficaz, além de facilitar o seu reuso.

Diante disso, a modelagem conceitual pode ser utilizada como forma de se obter resultados baseados em estruturas conceituais coerentes, elaboradas a partir de definições específicas de um dado domínio. Le Moigne (1977, p. 34) afirma que “modelar é conceber, para um objeto, um modelo que permita conhecê-lo, compreendê-lo, interpretá-lo e auxilie na antecipação do comportamento dele”.

Logo, precisa-se, na publicação de dados governamentais abertos, de vocabulários e representações semânticas dos domínios contemplados pelo Estado. E para isso se faz uso de modelos que possibilitarão a organização e representação dos conceitos e das relações existentes entre eles, que serão utilizados em ontologias para atribuição de semântica a esses dados publicados.

1.2 RECORTE ESCOLHIDO

Acompanhando o processo de desenvolvimento tecnológico, político e social internacional, o Brasil já começou a apresentar suas iniciativas em publicação de dados governamentais em formato aberto. Um dos setores públicos interessados nesta temática é a Previdência Social, que visa coletar dados sobre a vida profissional dos cidadãos, buscando conhecer o perfil do trabalhador. A Previdência Social brasileira pode ser considerada “um patrimônio do trabalhador e sua família. Transformou-se, ao longo das últimas oito décadas,

(23)

em um complexo e abrangente sistema de proteção social, com significativa cobertura de riscos sociais”. (BRASIL, 2009, p. 7).

A Previdência Social é um dos setores do Governo que mais coleta e organiza dados sociais. (RIBEIRO, C., 2008). A disseminação dessas informações tratadas também precisa de uma atenção especial. Assim, é necessário buscar alternativas para que estes dados, cada vez mais, sejam estudados e reutilizados pela sociedade.

Atualmente, a Previdência Social possui mais de 1.400 agências, pagando mensalmente 30 milhões de benefícios, atendendo presencialmente a um público de mais de 4 milhões de pessoas/mês, envolvendo cerca de 40 mil servidores. (DATAPREV, 2013). Esses números geram uma grande quantidade de dados, que estão armazenados em ambientes tecnológicos heterogêneos e que, com frequência, são utilizados na divulgação de informações, proporcionando um ambiente favorável para o desenvolvimento de trabalhos que pesquisem o tratamento e a disseminação destas informações. (RIBEIRO, C., 2008).

Além disso, após um ano da implantação da Lei de Acesso a Informação, a Controladoria-Geral da União (CGU) informou que a Previdência Social é o segundo órgão com maior número de demandas de solicitação de informações, ficando atrás apenas da Superintendência de Seguros Privados. (BATIMARCHI, 2013). Comprovando, dessa maneira, o interesse do cidadão pelas informações previdenciárias.

A delimitação do tema tem como campo empírico da pesquisa o domínio de dados da Previdência Social brasileira, tendo em vista o grande volume, a complexidade e o impacto que estas informações podem exercer em toda a sociedade. Como afirma Ribeiro (2001, p. 3) “o grande volume e a imensa diversidade de informações na Previdência Social Brasileira emolduram o cenário fértil para o estudo do comportamento destas informações”.

No caso deste trabalho, o recorte da pesquisa recairá sobre dados estatísticos sobre acidentes do trabalho, do Ministério da Previdência Social, geridos pela Empresa de Tecnologias e Informação da Previdência Social (Dataprev). Acidente do trabalho é acidente que “ocorre pelo exercício do trabalho a serviço da empresa ou pelo exercício do trabalho aos segurados empregados, trabalhadores avulsos e segurados especiais”. (HORVATH JÚNIOR, 2009, p. 6)

Essa escolha se deve em função desses dados fazerem parte da primeira experiência com a publicação de dados abertos realizada pela Dataprev, guardiã e gestora dos dados da Previdência Social brasileira. (DATAPREV, 2012).

A Dataprev deu início à publicação dos dados governamentais abertos de acidentes do trabalho a partir dos dados estatísticos disponíveis no Anuário Estatístico de Acidente do

(24)

Trabalho (2010). A publicação de dados governamentais abertos envolvendo dados estatísticos é importante, pois a reutilização desses dados no desenvolvimento de aplicativos ou outros serviços facilita a compreensão desses dados pelo usuário. Pois, como afirma Senra (1999), o importante nos dados estatísticos é a informação que eles representam e não o dado em si.

A estatística revela e mostra pouco a pouco que a população tem suas regularidades próprias: seu número de mortos, seu número de doenças, suas regularidades de acidentes. A estatística mostra igualmente que a população apresenta características próprias em seu conjunto e que esses fenômenos são irredutíveis aos da família: as grandes epidemias, as expansões endêmicas, a espiral do trabalho e da riqueza. A estatística mostra igualmente que, por seus deslocamentos, por suas maneiras de fazer, por sua atividade, a população tem seus efeitos econômicos específicos. A estatística, permitindo quantificar os fenômenos próprios à população, revela uma especificidade irredutível ao pequeno quadro da família. (FOUCAULT, 2003).

Assim, dados estatísticos estão repletos de poderes. Poder de quem o criou (quais as informações que foram selecionadas a serem quantificadas?), poder da metodologia escolhida para coleta e representação dos dados e poder de quem trabalhou essa informação (estatística é a representação quantificável de determinadas informações).

1.3 QUESTÕES A SEREM RESPONDIDAS

Nessa perspectiva, cabe-nos investigar as seguintes questões:

 Como elaborar um modelo conceitual de acidente do trabalho no domínio da Previdência Social brasileira?

 Como instrumentos de representação da informação, que contemplam a temática sobre acidente do trabalho, representam este domínio?

 Como representar a proposta do modelo conceitual de acidente do trabalho utilizando tecnologias da Web Semântica para a publicação dos dados governamentais abertos da Previdência Social?

(25)

1.4 ORGANIZAÇÃO DA PESQUISA

Além desta introdução, o trabalho apresenta a seguinte organização, dividida em seções.

A seção 2apresenta os objetivos gerais e os específicos da pesquisa.

A seção 3 é mostra o escopo e a metodologia empregada para responder as questões da pesquisa e, consequentemente, alcançar os objetivos.

A seção 4 faz referência ao marco teórico da pesquisa, no qual se investigará: a) a questão do conceito na representação da informação, aprofundando-se na Teoria do Conceito de Dalhberg (1978, 1981, 1983), na modelagem conceitual (LE MOIGNE, 1977) e no modelo Entidade-Relacionamento de Chen (1976); b) a Web Semântica e suas tecnologias: URI, XML, RDF, Ontologia, OWL e dados abertos interligados; c) os aspectos legais sobre acesso à informação pública; d) o governo eletrônico no Brasil, privilegiando aspectos sobre accountability e transparência pública; e) e, por fim, dados governamentais abertos, ilustrados com algumas iniciativas estrangeiras e nacionais.

A seção 5 apresenta modelos ou instrumentos de representação da informação que contemplem o universo sobre acidente do trabalho. São apresentados o Vocabulário Controlado do Governo Eletrônico (VCGE), o modelo de publicações de dados sobre acidentes do trabalho elaborado pela Dataprev e o tesauro e a taxonomia da Organização Internacional do trabalho (OIT).

Já a seção 6 faz o relato da elaboração, por meio de definições sobre acidentes do trabalho, de uma proposta de modelo conceitual na área de acidente do trabalho da Previdência Social brasileira.

A seguir, a seção 7 mostra como o modelo conceitual pode se constituir num vocabulário específico para descrever acidentes do trabalho.

A seção 8 revela o processo de conversão do diagrama ER em triplas de RDF, integrando o vocabulário proposto na seção 7, e sua aplicação em uma faixa de dados selecionada dentro do conjunto de dados publicados pela Dataprev;

As considerações finais indicadam algumas reflexões sobre os trabalhos, contribuições e possíveis extensões ao presente trabalho.

(26)

2 OBJETIVOS

2.1 OBJETIVO GERAL

 Propor um modelo conceitual dos dados sobre acidentes do trabalho para publicação dos dados governamentais mantidos pela Previdência Social.

2.2 OBJETIVOS ESPECÍFICOS

 Representar o conhecimento sobre acidente do trabalho, no âmbito da Previdência Social brasileira, identificando as entidades presentes e os relacionamentos existentes;

 Propor um vocabulário sobre acidentes do trabalho, utilizando o modelo conceitual elaborado;

 Codificar em RDF uma amostra dos dados publicados pela Previdência Social sobre acidente do trabalho.

(27)

3 ESCOPO E PROCEDIMENTOS METODOLÓGICOS

Metodologia significa, “na origem do termo, estudo dos caminhos, dos instrumentos usados para se fazer ciência”. (DEMO, 1995, p. 11). Desta forma, mostra-se, agora, as escolhas feitas para a construção da pesquisa.

3.1 ESCOPO

O campo empírico para aplicação do modelo conceitual proposto é dos dados estatísticos mantidos pelo Ministério da Previdência Social. A temática será limitada aos dados sobre acidente do trabalho e a abrangência cobrirá o período entre 2002 a 2009. A temática e a abrangência foram definidas com base nos dados, atualmente, trabalhados pela Dataprev para publicação dos dados governamentais abertos, utilizando como fonte principal o Anuário Estatístico de Acidente do Trabalho, auxiliado pelo Anuário Estatístico da Previdência Social, ambos publicados pelo Ministério da Previdência Social.

3.2 METODOLOGIA

De acordo com Gil (2002) e Marconi e Lakatos (1992; 2003), a pesquisa pode ser classificada de acordo com diferentes aspectos, como: de acordo com a natureza da pesquisa, a forma de abordagem do problema e os objetivos almejados.

Observando esta pesquisa do ponto de vista de sua natureza, pode-se classificá-la como pesquisa aplicada, pois tem como objetivo reunir e elaborar informações para “contribuir para fins práticos, visando à solução mais ou menos imediata do problema encontrado na realidade.” (BARROS; LEHFELD, 2000, p. 78).

Sob a ótica da forma de abordagem do problema, ela é classificada como qualitativa, pois “trabalha com o universo dos significados, dos motivos, das aspirações, das crenças, dos valores e das atitudes”. (MINAYO, 2002, p. 21). Em outras palavras, a pesquisa qualitativa trata e interpreta conjuntos de materiais disponíveis utilizando “processos hermenêuticos a partir do que busca extrair dos discursos a expressão da subjetividade do sujeito informante ou a percepção obtida pela participação do pesquisador em processos de coleta com envolvimento direto ou com observação”. (SOUZA, 2003, p. 29).

Esta pesquisa pode ser classificada segundo seus objetivos como pesquisa exploratória, pois busca proporcionar maior familiaridade com o problema, com vistas a

(28)

torná-lo mais explícito ou a constituir hipóteses. Utilizando-se, na maioria dos casos, de levantamento bibliográfico e análise de exemplos que estimulem a compreensão do objeto estudado. (GIL, 2002).

Os procedimentos metodológicos foram divididos da seguinte forma:

 Pesquisa bibliográfica

Para fundamentação do marco-teórico, apresentado na seção quatro, buscou-se levantar os autores de Ciência da Informação e áreas afins a esta pesquisa, com análises de citação e de conteúdo para identificação e escolha dos conceitos a serem utilizados.

Foram pesquisados os termos: “conceito”, “modelagem conceitual”, “modelo entidade-relacionamento”, “Web Semântica”, “governo eletrônico” e “dados governamentais abertos”6. A pesquisa foi realizada nas seguintes bases de dados: Portal Capes7, Biblioteca Digital de Teses e Dissertações (BDTD)8, Base de Dados Referencial de Artigos de Periódicos em Ciência da Informação (BRAPCI)9, CitesserX10, Google Acadêmico11. As bases de dados foram selecionadas por disponibilizarem relevante produção científica em Ciência da Informação e demais áreas envolvidas neste estudo.

 Identificação de modelos ou vocabulários sobre acidentes do trabalho

Pesquisou-se por modelos ou vocabulários existentes que pudessem representar ou serem utilizados na elaboração de um modelo conceitual sobre acidente do trabalho no domínio da Previdência Social. Observou-se o Vocabulário Controlado do Governo Eletrônico (VCGE)12, o modelo de publicações de dados sobre acidentes do trabalho publicado pela Dataprev13 e o tesauro e a taxonomia da Organização Internacional do Trabalho (OIT)14.

6 Os termos foram pesquisados também com suas variações linguísticas (sinônimos) e abreviações e também em outros idiomas (inglês, espanhol e francês).

7 Disponível em: <http://www.periodicos.capes.gov.br/>. Acesso em: 6 abr. 2013. 8 Disponível em: <http://bdtd.ibict.br/>. Acesso em: 6 abr. 2013.

9 Disponível em: <http://www.brapci.ufpr.br/>. Acesso em: 6 abr. 2013. 10

Disponível em: <http://citeseerx.ist.psu.edu/index;jsessionid=19C845A95BBA6034A1D095B5D465E7D9>. Acesso em: 6 abr. 2013.

11 Disponível em: < http://scholar.google.com.br/>. Acesso em: 6 abr. 2013. 12 Disponível em: <http://vocab.e.gov.br/2011/03/vcge>. Acesso em: 6 abr. 2013. 13

Disponível em: <http://api.dataprev.gov.br/doc/dadosDisp.htm>. Acesso em: 6 abr. 2013. 14 Disponível em: <http://www.ilo.org/thesaurus/defaultes.asp>. Acesso em: 6 abr. 2013.

(29)

Para essa atividade, foi necessário observar cada instrumento de representação levando-se em consideração a estrutura e as informações dos dados publicados pela Dataprev, a relação entre acidente do trabalho e os benefícios previdenciários brasileiros e outras questões particulares a cada instrumento estudado.

Esta metodologia, utilizada na seção cinco, busca conhecimentos para responder uma questão proposta neste trabalho: “Como instrumentos de representação da informação que contemplam a temática sobre acidente do trabalho representam este domínio?”

 Elaboração de um modelo conceitual sobre acidente do trabalho

A seção seis buscará, por meio de definições sobre acidentes do trabalho, identificar conceitos e suas relações de modo a se propor um modelo conceitual sobre este tipo de acidente. Para que tal resultado seja conquistado, seguiram-se os seguintes passos metodológicos:

a. Na coleta e seleção das definições buscou-se por autores representativos e/ou por fontes de referência legais que definissem acidente do trabalho. Deste modo, foram identificadas quatro fontes:

i. Brasil (1991) que regulamenta a Lei n. 8.213, publicada em 24 de julho de 1991, que dispõe sobre os planos de benefícios da Previdência Social. No artigo décimo nono da referida Lei é definido o acidente do trabalho.

ii. Anuário Estatístico da Previdência Social (2012) que é uma publicação oficial da Previdência Social que reúne dados estatísticos referentes às atividades desenvolvidas no ano 2011. Nesta publicação, o quarto capítulo é dedicado exclusivamente aos acidentes do trabalho, apresentando sua definição.

iii. Organización Internacional del Trabajo (2011) que em seu tesauro define e classifica acidente do trabalho.

iv. Horvath Júnior (2009), que publicou o “Dicionário analítico de Previdência Social”, único dicionário especializado localizado que define acidente do trabalho.

b. Classificação das definições e identificação dos termos com base na Teoria do Conceito, desenvolvida por Dahlberg (1978a, 1981, 1983). De acordo com Dahlberg (1983) as definições serão classificadas em: definição genérica, definição partitiva e definição funcional. Esta classificação mostra as características de uma definição.

(30)

Ademais, esta classificação auxiliou no estabelecimento das relações existentes entre os termos encontrados;

c. Classificação dos termos identificados de acordo com as categorias das ontologias Unified Foundational Ontology for perdurants (UFO-B) e da DOLCE15+DnS16 Ultralite (DUL), verificando semelhanças e diferenças, contribuindo para a identificação dos elementos (objeto ou relação) do modelo a ser construído;

d. Classificação dos termos de acordo com o modelo de Entidade-Relacionamento, desenvolvido por Chen (1976)17. Esta classificação possibilitará obter uma visão de como os elementos estão interligados, possibilitando também uma representação gráfica;

e. Elaboração de um diagrama de Entidade-Relacionamento para cada definição analisada; e

f. Apresentação, ao final, de um modelo consolidado, abrangendo a área de acidente do trabalho no domínio da Previdência Social.

Esta metodologia busca responder a pergunta: “como elaborar um modelo conceitual de acidente do trabalho no domínio da Previdência Social brasileira?”. Procurando atingir o objetivo geral deste estudo.

 Elaboração de um vocabulário sobre acidente do trabalho

Esta parte do trabalho, presente na seção 7, apresenta o vocabulário proposto, que seguiu os passos abaixo:

a. Escolha dos conceitos do modelo conceitual a serem utilizados na elaboração do vocabulário. Não serão contemplados todos os conceitos neste momento, apenas aqueles relacionados diretamente aos dados já publicados pela Previdência Social; b. Busca por vocabulários já existentes que possam contemplar essas entidades,

relacionamentos e atributos;

c. Criação de URIs fictícios para os conceitos a serem criados;

15 Descriptive Ontology for Linguistic and Cognitive Engineering. 16 Descriptions and situations.

17

A escolha do Modelo Entidade-Relacionamento é justificada pela sua proximidade com o RDF, padrão indicado para descrição de dados na Web Semântica. Chen (2002) ao falar dos possíveis usos e relações do modelo Entidade-Relacionamento o associa ao RDF, afirmando que existem algumas semelhanças e diferenças entre RDF e do modelo ER. Entretanto, o RDF, já é considerado um membro da família da modelagem Entidade-Relacionamento, em que os dados estruturados como gráficos rotulados podem ser trocados através de documentos XML. (W3C, 1999).

(31)

d. Definição de um nome (namespace) para o vocabulário;

e. Descrição dos conceitos que farão parte do vocabulário proposto;

f. Divisão do vocabulário em classes (entidades), propriedade (relacionamentos) e elementos (atributos).

 Codificação em RDF de uma amostra dos dados publicados pela Previdência Social sobre acidente do trabalho

Esta é a parte prática da pesquisa a ser mostrada na seção 8da dissertação, na qual será realizada a conversão das entidades e relacionamentos do modelo proposto em triplas de RDF, tecnologia recomendada pela W3C para descrição de dados na Web Semântica. Será escolhida uma parte dos dados já publicados pela Dataprev sobre acidente do trabalho para implementação do RDF.

Seguiram-se os seguintes passos:

a) Definição das triplas RDF com base no modelo conceitual proposto.

b) Representação das triplas RDF em quadros, baseados na criação de tabelas para descrição de banco de dados lógicos (XU; LEE; KIM, 2010) para descrever as entidades e relações e convertê-las para triplas RDF;

c) Substituição dos elementos do quadro por suas respectivas URI, de acordo com o vocabulário proposto;

d) Implementação das triplas RDF nos dados selecionados em um modelo gráfico RDF/XML.

Pretende-se, com isso, responder a última questão apresentada neste trabalho: “como representar a proposta do modelo conceitual de acidente do trabalho utilizando tecnologias da Web Semântica para a publicação dos dados governamentais abertos da Previdência Social?”. E atender ao objetivo específico de propor um esquema, em RDF, para publicação dos dados sobre acidente do trabalho.

(32)

4 MARCO TEÓRICO

Para melhor entendimento do trabalho que se pretende desenvolver e para facilitar o agrupamento da bibliografia recolhida através da pesquisa bibliográfica, decidiu-se elaborar o referencial teórico, que busca fornecer um panorama sobre alguns conteúdos, julgados imprescindíveis para a compreensão da pesquisa. Desde modo, foram estudados os seguintes assuntos: conceito (teoria e modelos), Web Semântica e dados governamentais abertos e seus, respectivos, assuntos correlatos.

4.1 REPRESENTAÇÃO DO CONHECIMENTO

A Ciência da Informação é um campo de estudo cujos esforços estão direcionados ao entendimento sobre as vertentes que envolvem a produção, circulação e uso da informação. Pesquisas, nesta área, buscam fornecer teorias e instrumentos que auxiliam no armazenamento, recuperação e disseminação da informação.

Alvarenga (2001) afirma que a criação, a disponibilização e o aperfeiçoamento das tecnologias da informação interferiram diretamente nos sistemas de representação e recuperação de informações documentais. Estes sistemas tradicionais foram obrigados a expandir sua forma de representação, indo além dos catálogos referenciais em fichas, alcançando as bases de dados online. De acordo ainda com esta autora, essas mudanças nos sistemas de representação acarretaram o interesse de diferentes áreas no estudo deste campo, destacando a Linguística e a Ciência da Computação, com seus estudos sobre bases de dados.

Davis, Shrobe e Szolovits (1993) estabelecem o conceito de representação do conhecimento a partir de cinco definições concebidas com base em sua utilização: (1) a representação do conhecimento é fundamentalmente um substituto para aquilo que representa; (2) é uma aproximação imperfeita da realidade, selecionando o que e como observar o ser ou objeto representado; (3) é uma teoria fragmentária de raciocínio inteligente expresso em termos de três componentes: (a) concepção fundamental da representação do raciocínio inteligente, (b) o conjunto de inferências que as sanções de representação, e (c) o conjunto de inferências que ele recomenda; (4) é um meio para a computação pragmaticamente eficiente, isto é, o ambiente em que o pensamento computacional é realizado, contribuindo para organizar as informações de forma a facilitar a tomada das inferências recomendadas; e (5) é um meio de expressão humana, isto é, uma linguagem em que se diz algo sobre o mundo.

(33)

Neste estudo, nota-se um entrosamento entre a Ciência da Informação e a Ciência da Computação na representação de dados. Maia e Alvarenga (2013, p. 2) comentam que existe uma preocupação recíproca entre ambas as áreas citadas, no que se refere “ao aspecto da representação, organização intelectual, busca e recuperação da informação em sistemas específicos”. As autoras acrescentam ainda que os “sistemas de recuperação da informação (SRI) são estudos realizados na base estrutural da CI e, ao mesmo tempo, também participam de um contexto de estudo da CC [Ciência da Computação]”. (Maia, Alvarenga, 2013, p. 2)

Campos (2004) analisa os mecanismos de representação do conhecimento sob a ótica de diferentes áreas,

No âmbito da Ciência da Computação, eles servem para auxiliar a implementação de estruturas computáveis. No âmbito da ciência da informação, possibilitam a elaboração de linguagens documentárias verbais e notacionais, visando à recuperação de informação e à organização dos conteúdos informacionais de documentos. No âmbito da terminologia, esses mesmos mecanismos permitem a sistematização dos conceitos e, conseqüentemente, a elaboração de definições consistentes. (CAMPOS, 2004, p. 23).

Desta forma, percebe-se que a representação da informação pode ser estudada com focos diversos, de acordo com o contexto e com os objetivos propostos. Logo, “pode-se dizer que a representação dos objetos pelos indivíduos está diretamente ligada ao modo como cada um percebe o mundo e interage com ele”. (LEITE, BORNIA, 2006, p. 2).

Na visão da Ciência da Informação, Novellino (1996, p. 38) considera que “a principal característica do processo de representação da informação é a substituição de uma entidade lingüística longa e complexa - o texto do documento - por sua descrição abreviada”. Em outras palavras, a autora está se referindo diretamente ao processo de representação temática de um documento. Este processo que envolve dois processos: “análise conceitual e tradução” (LANCASTER, 1993, p. 8). Neste momento, chega-se ao Conceito, elemento tão importante na representação do conhecimento, que será visto com mais detalhes na subseção a seguir.

4.1.1 Uma visão acerca do conceito

Há diversas abordagens de diferentes áreas do conhecimento que se debruçam sobre o estudo do conceito. Estes estudos podem variar ainda dentro da mesma área de acordo com a corrente teórico-epistemológica adotada. (FRANCELIN; KOBASHI, 2011, p. 208).

(34)

Na Ciência da Informação, são recorrentes os estudos que discutem a relação entre a linguagem (representação) e as coisas (mundo real). Compreender as ligações entre o mundo real, os conceitos e sua representação gráfica é necessário no processo de representação.

Na época de Aristóteles existia a preocupação de se unir o domínio das palavras ao domínio das coisas. Ao estudar as obras de Aristóteles, Figueiredo (2000, p. 11) considera que os conceitos têm uma realidade mental, em outras palavras, é o modo como os homens organizam mentalmente as coisas existentes, agrupando-as de acordo com conceitos estabelecidos e nomeando-as com uma palavra, em um determinado contexto.

Um conceito é uma rede de padrões de inferências, associações e relacionamentos que são predicados ou ditos de outra forma trazidos em cena através do ato da categorização [...] a cristalização ou formalização do pensamento inferencial, nascida da percepção sensorial, condicionada pela operação do cérebro humano e delineada pela experiência humana. Ela repousa na fundamentação de todo pensamento, mas ela é pragmática e instrumental. É permanente e efêmera. Permanente porque sem ela, a cognição é impossível; efêmera porque ela pode ser rejeitada quando sua utilidade é esgotada. (SHERA, 1957 apud ALVARENGA, 2001, p. 33).

Alvarenga (2001, p. 33) complementa a ideia de Shera (1957) afirmando que os conceitos “ou padrões se constituem na matéria do qual as classificações são feitas. Os conceitos podem se referir às coisas concretas e abstratas. Os conceitos e a formação de conceitos são o material para a construção das classificações bibliográficas”.

Eugen Wüester, ao elaborar a Teoria Geral da Terminologia, definiu conceito como “a unidade de pensamento, constituído de características que refletem as propriedades significativas atribuídas a um objeto, ou a uma classe de objetos”. (CAMPOS, 2001, p. 71).

Todavia, outra definição clássica de conceito é a estabelecida por Dahlberg (1978c), que define conceito como sendo “a unidade de conhecimento que surge da síntese dos predicados necessários relacionados com determinado objeto e que, por meio de sinais lingüísticos, pode ser comunicado”. (Dahlberg, 1978c, p. 12). A Teoria do Conceito será vista com mais detalhes na próxima seção sobre a Teoria do Conceito.

A “compilação de enunciados verdadeiros” (DAHLBERG, 1978a, p. 102), já estava presente no pensamento de Aristóteles, que se valia dos conceitos para verificar a validade das proposições. As relações entre as palavras, dispostas da seguinte maneira sujeito-verbo-predicado são chamadas de proposições. (FIGUEIREDO, 2000, p. 12). Sendo que o sujeito e o predicado são os objetos concretos ou abstratos e o verbo é a relação existe entre eles. Está

(35)

lógica foi também apropriada pela área da Ciência da Computação, quando elaboraram a tripla de RDF, melhor explicado na seção 4.2.3.

Para se verificar a veracidade de uma proposição se recorre a dois tipos de processos: verificação empírica e análise conceitual. Na verificação empírica, os objetos são vistos diretamente para se confrontar a afirmativa. Já na análise conceitual, analisa-se o conceito do sujeito e verifica-se se é compatível com o conceito do predicado. Assim, a verificação empírica precisa do sujeito individual, pois é necessária a observação direta, já a análise conceitual “é um processo que nos permite declarar se uma proposição é verdadeira ou falsa, independentemente dos sujeitos individuais a que se aplica o seu predicado”. (FIGUEIREDO, 2000, p. 13).

Os conceitos são importantes para identificar, classificar e organizar os objetos. Reunir por conceitos, de acordo com características comuns, facilitar a organização semântica dos objetos. Desta forma, pode-se dizer que “a organização conceitual é necessária a qualquer sistema adequado que objetive a recuperação da informação”. (FROHMANN, 1983 apud MOTTA, 1987, p. 30).

A seguir será mostrado a Teoria do Conceito de Dahlberg, a modelagem conceitual de Le Moigne e o modelo Entidade-Relacionamento de Chen. A expectativa é proporcionar uma visão de como o conceito se constitui e contribui para a representação do conhecimento, de acordo com essas teorias.

4.1.2 Teoria do conceito

A Teoria do Conceito foi elaborada por Ingetraut Dahlberg nos anos 70. Desde então tem sido referência para diversos estudos na área de representação do conhecimento, principalmente, com vistas à recuperação.

Baseado nos princípios da Teoria do Conceito é possível estabelecer relações e determinar, no plano verbal, o que se denomina termo. (CAMPOS, 2001, p. 87). Exatamente por estes benefícios trazidos à área de representação do conhecimento, que a Teoria do Conceito é muito utilizada para a elaboração de tesauros.

De acordo com Alvarenga (2001) a Teoria do Conceito teve grande influência do pensamento de Aristóteles. Esta autora referencia o ato da cognição humana e a fatoração do conceito em categorias, como exemplos de contribuições para a evolução do pensamento filosófico e científico. Ela adiciona ainda que para Aristóteles,

(36)

[...] saber seria ter muitos conceitos e conhecer significava três coisas”: 1. formar conceitos, ou seja, constituir em nossa mente um conjunto de notas características para cada uma das essências que se realizam na substância individual.; 2. aplicar esses conceitos que formamos a cada coisa individual, colocar cada coisa individual sob um conceito. Chegar à natureza; contemplar a substância; olha-la e voltar para dentro de nós mesmos para procurar no arsenal de conceitos aquele que se ajustasse a uma singular substância; e formular um juízo; 3. embaralhar entre si esses diversos juízos, em forma de raciocínios que nos permitissem chegar à conclusão acerca de substâncias que não temos presentes. (ALVARENGA, 2001, p. 7-8)

Como visto na seção anterior, em sua Teoria do Conceito, Dahlberg (1978) define conceito como sendo uma unidade de conhecimento. O processo para formação de um conceito é formado por três etapas constituída por três elementos (ver figura 1): A) o item de referência ou referente (objeto real ou abstrato se pretende conceituar,); B) as características (declarações ou proposições verdadeiras acerca do referente); e C) a forma verbal (expressão/termo utilizada para representar o referente).

FIGURA 1 - Modelo de construção do conceito.

Fonte: DAHLBERG (1978b)

Ao observar estas etapas, percebe-se que o conceito é constituído de três elementos: o referente, as características e a forma verbal. Formando o Triângulo do Conceito (figura 2), desenvolvido por Dahlberg (1978b).

(37)

FIGURA 2 - Triângulo do conceito

Fonte: Dahlberg (1978b)

Deve-se ficar claro que o processo de formação do conceito se inicia com a escolha do referente, que possui suas características relevantes analisadas de acordo com um determinado domínio. Termos graficamente iguais poderão ter diferentes conceitos se observados em áreas do saber diferentes, uma vez que as características relevantes se alteram de campo para campo do conhecimento. (DAHLBERG, 1978a).

Dahlberg (1978a) chama de análise do conceito a identificação das características dos conceitos, obtidas a partir da formulação de enunciados verdadeiros sobre os objetos (referentes). Identificar as características dos conceitos se faz importante, pois elas exercem as funções de: “ordenação classificatória dos conceitos e respectivos índices; definição dos conceitos; formação dos nomes dos conceitos”. (DAHLBERG, 1978a, p. 104).

Na Teoria do Conceito as características são divididas em duas espécies: as “características essenciais”, que são as necessárias para se definir conceitos gerais; e as “características acidentais”, que são as adicionais ou possíveis de estarem presentes nos conceitos. A identificação das características é importante para “determinar a ordem dos conceitos”. (DAHLBERG, 1978a, p. 104).

Ademais, as características são importantes na identificação dos relacionamentos, pois “sempre que diferentes conceitos possuem características idênticas deve-se admitir que entre eles existam relações”. (DAHLBERG, 1978a, p. 104).

Os conceitos se relacionam entre si formando um “sistema de conceito terminológico, pois são representações mentais das relações que ocorrem entre os objetos na realidade empírica”. (CAMPOS, 2001b, p. 77). Para Wuester (1981) as relações, tratadas em um nível conceitual, podem ser classificadas em relações lógicas e ontológicas.

A experiência mostra como é difícil para um grande número de pessoas distinguir as duas espécies de relação (lógica e ontológica). Contudo, um abismo intransponível separa muito bem estas duas categorias de relações

(38)

conceituais. [...] As relações ontológicas nascem do fato de elevarem-se a um nível de abstração as relações que existem na realidade entre os indivíduos (relações ônticas) fazendo-se destas relações individuais (por assim dizer destes indivíduos de relações) conceitos de relação (por exemplo, acima, abaixo). (WUESTER, 1981, p. 97 apud CAMPOS, 2001b, p. 78).

Dahlberg (1978a) utiliza as relações lógicas para estabelecer possíveis comparações entre os conceitos, de modo a conseguir organizá-los. Esta autora apresenta ainda outros relacionamentos, a saber:

 Relações hierárquicas ou de gênero e espécie – ocorrem quando dois conceitos diferentes possuem características idênticas e um deles possui uma característica a mais que o outro;

 Relações partitivas – ocorrem quando existe um todo e suas partes;

 Relações de oposição – ocorrem quando um conceito se opõe a outro, por contradição ou contrariedade; e

 Relações funcionais – ocorrem com conceitos que expressam processo, mostrando as funções do objeto.

A Teoria do Conceito ainda trabalha com o sentido da intensão e extensão do conceito. Dahlberg (1978a, p. 105) explica que a intensão do conceito é a soma total das suas características, além da “soma total dos respectivos conceitos genéricos das diferenças específicas”. Já a extensão do conceito seria a soma total dos conceitos mais específicos que o conceito possui, bem como a soma dos conceitos para os quais a intensão verdadeira, ou seja, características em comum que também se encontram na intensão do mesmo conceito.

Nas definições estão as características do conceito, delimitando estas características (intensão), é possível determinar os conceitos que possam ser relacionados ao conceito em análise por possuírem características semelhantes, determinando sua totalidade ou o número de conceitos que este conceito abarca (extensão). (FELBER, 1984 apud CAMPOS, 2001b, p. 76).

A necessidade de estudos sobre as definições se faz cada vez maior. A pergunta “o que é...?” desperta o interesse das pessoas desde a infância. A curiosidade ou a necessidade de se saber o que é determinado objeto (concreto ou abstrato) persegue o homem ao longo da vida e em todos os períodos históricos. Desta forma, definir algo é uma tarefa difícil que envolve

Referências

Documentos relacionados

A divulgação do tema junto às populações sujeitas a grande estresse emocional, como são os estudantes do ensino superior, revela-se de grande importância, para que eles estejam

O presente estudo objetivou analisar as condições de saúde física dos praticantes de caminhada do município de Esperança – PB considerando os riscos de desenvolvimento de

Diante do cenário vigente, no âmbito das relações de trabalho, marcado pela fragmentação da classe operária, por toda sorte de contratos laborais: informais, precários,

(os leitores adivinham que espécie de aperitivos!...) a certos organismos depauperados. Quando pretendia relê-lo, a ―Cigarra‖, a sisuda mademoiselle ―Cigarra‖,

O projeto desenvolvido envolve o estudo e construção de um protótipo que, utilizando um sistema autônomo de geração de energia, é responsável pela recarga de um equipamento usado

The main objective of this thesis is to investigate, through the analyses of Pause Protocol 3 verbalizations and reading comprehension questions, whether the

Temos certeza que as inform ações aqui divulgadas servirão para o m aior conhecim ento e uso do controle biológico, bem com o de estím ulo e suporte para novas