• Nenhum resultado encontrado

METADATA ANONYMIZATION OF DIGITAL IMAGE THROUGH K- ANONYMITY MODEL

N/A
N/A
Protected

Academic year: 2018

Share "METADATA ANONYMIZATION OF DIGITAL IMAGE THROUGH K- ANONYMITY MODEL"

Copied!
8
0
0

Texto

(1)

XVI Encontro Nacional de Pesquisa em Ciência da Informação (XVIENANCIB) ISSN 2177-3688

GT 8 – Informação e Tecnologia

Pôster

ANONIMIZAÇÃO DE METADADOS DE IMAGEM DIGITAL POR MEIO

DO MODELO K-ANONIMATO

1

METADATA ANONYMIZATION OF DIGITAL IMAGE THROUGH

K-ANONYMITY MODEL

Elaine Parra Affonso, UNESP Marília

[email protected]

Ricardo César Gonçalves Sant'Ana, UNESP Marília

[email protected]

Resumo: Um recurso informacional iconográfico digital, quando representado por metadados e liberado sem o devido cuidado, pode implicar na quebra de privacidade. Assim, destaca-se a relevância de estudos sobre o processo de anonimização no compartilhamento de imagens digitais, de forma a proporcionar sua representação e mantê-las disponíveis e recuperáveis. Nesse contexto, é possível proteger a privacidade e, ao mesmo tempo, permitir o acesso e o compartilhamento de imagens? O objetivo desta pesquisa foi categorizar os metadados de imagens digitais que podem comprometer a privacidade, tendo como base a fundamentação do modelo k-anonimato. A metodologia constituiu-se em uma pesquisa exploratória dos metadados de imagem, complementada, inicialmente, pelo uso das operações de supressão e generalização estipuladas pelo modelo K-anonimato. Como resultado, foi apresentada à categorização dos metadados identificadores, semi-identificadores, sensíveis e não sensíveis, e aplicação das operações de supressão e generalização dos metadados. A partir desta pesquisa, é possível afirmar, preliminarmente, que os metadados identificadores devem ser suprimidos das imagens digitais, e o uso de generalização de metadados semi-identificadores minimizam a possível correlação com outros dados.

Palavras-chave: Anonimato. Metadados. Imagem Digital. Privacidade.

Abstract: A digital iconographic information resource, when represented by metadata and released without the right care, may imply a privacy breaking. Thus, it is emphasized the relevance of studies on the anonymization process in digital images sharing, in order to provide its representation as well as keep them available and recoverable. In this context, it is possible to protect privacy while allowing access and

1 O conteúdo textual deste artigo, os nomes e e-mails foram extraídos dos metadados informados e são de total

(2)

pictures sharing? The purpose of this research was categorizing the digital image metadata that can compromise privacy, based on k-anonymity model principles. The methodology consisted in an exploratory research of image metadata, supplemented, at first, by the use of operations of suppression and generalization stipulated by K-anonymity model. As a result, it was presented to the categorization of metadata identifiers, semi-identifiers, sensitive and non-sensitive, and application of suppression and generalization operations of metadata. From this research it’s possible to state preliminarily that the metadata identifiers must be removed from the digital images, and the use of generalization semi-identifiers metadata minimize the possible correlation with other data.

Keywords: Anonymity. Metadata. Digital Image. Privacy.

1 INTRODUÇÃO

Muitas organizações armazenam, compartilham e usam vários recursos de informações, que variam em termos de tipo, estrutura e conteúdo. Nenhuma organização pode melhorar o seu desempenho sem mecanismos adequados para garantir o acesso a esses recursos (CHOWDHURY; CHOWDHURY, 2007).

Dentre esses recursos, o aumento dos meios de captura de imagem tem avançado juntamente com as Tecnologias da Informação e Comunicação, que oferecem dispositivos e softwares para captura e processamento da imagem digital. A recuperação destes conteúdos requerem atenção especial, e “a imagem digital é um recurso iconográfico que necessita de orientações mais precisas e específicas em seu tratamento descritivo” (SIMIONATO; SANTOS, 2013, p.3), assim, a representação destes por meio de metadados pode propiciar uma melhor recuperação, preservação e ampliação de pontos de acesso destes conteúdos para o usuário final. Metadados que, para Alves e Santos (2013) são entendidos como um conjunto de dados estruturados que auxiliam o processo de localização, identificação e recuperação de textos, documentos e imagens disponíveis em meios digitais.

Ao realizar um upload de uma imagem, o usuário perde parcialmente o controle sobre este recurso digital, já que não é senso comum à percepção de que o recurso imagético possui mais informações do que o conteúdo visual propriamente dito. O conteúdo pode incluir metadados, intrinsecamente incorporados, que podem representar, inclusive, ameaças à privacidade dos usuários (HENNE; SMITH, 2014).

(3)

conhecimentos relativos à produção, coleta, organização, armazenamento, recuperação, interpretação, transmissão, transformação e utilização da informação” (BORKO, 1968, p. 3, tradução nossa). Neste contexto, é relevante refletir sobre o seguinte problema: É possível proteger as questões pessoais ao permitir o acesso e compartilhamento de informações imagéticas, e ainda manter a representação do recurso digital?

O objetivo desta pesquisa é categorizar os metadados de imagem digital por meio de elementos do modelo k-anonimato, promovendo uma reflexão sobre os aspectos da privacidade em recursos imagéticos.

2 IMAGEM DIGITAL

Para representação da imagem digital são encontrados diversos padrões que possibilitam a descrição deste recurso, como a estrutura de dados automática EXIF2 e padrões como: Dublin Core, MARC 213, MIX 4 e MODS5. Os dispositivos de captura podem inserir metadados

automaticamente e ferramentas de criação e editoração de imagens permitem aos usuários adicionar ou editar metadados incorporados na imagem. Na imagem digital os metadados auxiliam na identificação de informações, tais como, direitos autorais, dados de processamento e captura (BACA, 1999).

As especificidades dos padrões permitem uma melhor recuperação, preservação e mais pontos de acesso, todavia, estes acabam revelando, também, informações que podem tornar frágeis aspectos relacionados à privacidade, como: autor da imagem, data, coordenadas GPS, destacando, ainda, que os metadados são facilmente legíveis por máquinas.

Henne e Smith (2014) enfatizam que embora os metadados possam comprometer a privacidade do indivíduo, estes são instrumentos valiosos para a descrição e recuperação da imagem. No entanto, o proprietário da imagem deve ser capaz de escolher, conscientemente, quais metadados irá compartilhar, minimizando a dependência atual, depositada sobre os próprios serviços de armazenamento e disponibilização, de proteger ou remover os metadados, já que não é possível controlar o destino intramuros destes dados uma vez sob controle dos responsáveis por estes serviços.

2

Exchangeable Image File Format.

3

Machine-Readable Cataloguing

4

Metadata for Digital Still Images Standards Committee.

5

(4)

Para Samarati e Sweeney (1998) há situações que a utilidade dos dados depende da capacidade do responsável em fornecer dados anônimos e, não fornecer a proteção adequada, pode criar situações que comprometam a privacidade do indivíduo. Neste sentido, a privacidade pode ser entendida como o privilégio dos usuários em determinar por si mesmos quando, como e para quem suas informações podem ser disponibilizadas (BHASKAR; AHAMED, 2007).

Diferenciando privacidade de anonimato, Skopek (2014) enfatiza que na condição de privacidade, pode-se ter o conhecimento da identidade de um indivíduo, mas não do fato associado a ele, que, na condição de anonimato, tem-se o conhecimento do fato do indivíduo, mas não da identidade deste. Assim, pode-se associar o anonimato a visão foucaultiana em que se é visto, mas não identificado, onde se é “objeto de uma informação, nunca sujeito numa comunicação” (FOUCAULT, 1987, p. 224). O anonimato pode ser definido, ainda, como a incapacidade de identificar o indivíduo num contexto, de tal forma que ele não possa ser analisado, criticado, julgado ou punido (ZIMBARDO, 1969 apud CHRISTOPHERSON, 2007).

Uma das alternativas para minimizar problemas que afetam a proteção a privacidade é o modelo k-anonimato, conceituado como uma forma de definir propriedades que um conjunto de dados deve possuir de forma a garantir a privacidade dos envolvidos em sua eventual divulgação ou acesso. Samarati e Sweeney (1998) propõem, neste modelo, operações de generalização e supressão com o objetivo de garantir que cada registro acessado possa ser associado com pelo menos k possíveis correspondentes. Quanto maior for o valor numérico de k, maior será anonimização e consequentemente menor o risco de identificação do indivíduo.

Na divulgação dos dados os atributos podem ser classificados como: identificadores (identificam unicamente o indivíduo); semi-identificadores (combinados com dados externos podem identificar o indivíduo); atributos sensíveis (contêm informações confidenciais) e atributos não sensíveis (não se enquadram em nenhuma das categorias) (SAMARATI; SWEENEY, 1998; FUNG et al., 2010).

3 METODOLOGIA

(5)

Com base nos metadados extraídos da imagem, foi realizada a categorização destes como: identificadores, semi-identificadores e não sensíveis. Logo, foram aplicadas as operações de supressão dos metadados identificadores e generalização dos metadados semi-identificadores, de acordo com o modelo k-anonimato.

4 RESULTADOS E DISCUSSÕES

A Figura 1 representa a imagem capturada, da qual foram extraídos os metadados para realizar a categorização e as operações estipuladas pelo modelo k-anonimato.

Figura 1: Imagem capturada

Fonte: Autores.

Foram suprimidos os metadados categorizados como identificadores, pois podem permitir a identificação do sujeito. Aplicou-se a operação de generalização nos metadados categorizados como semi-identificadores e que possuem valores do tipo data, pois estes quando combinados com outros dados podem apontar para a descoberta de informações sobre o sujeito (Quadro 1). Esta ação permite manter parte da representação semântica e preservar a autenticidade e representatividade dos metadados.

Quadro1: Categorização e Operações de Supressão/Generalização nos Metadados

M et ad ad os C at eg or ia V al or A çã o R es ul ta do M et ad ad os C at eg or ia V al or A çã o R es ul ta do

ExifTool V. Num NS 9.98 - 9.98 Interop. Version NS 100 - 100

File Name NS parque.jpg - parque.jpg Sensing Method NS One-chip color área - One-chip color area Directory - . - . Scene Type NS Directly photo - Directly photo File Size NS 3.7 MB - 3.7 MB Exposure Mode NS Auto - Auto File Modification

Date/Time SI 2015:04:18 08:35:15-03:00 G 04/2015 White Balance NS Auto - Auto File Access

Date/Time SI 2015:04:17 16:49:25-03:00 G 04/2015 Focal Length In 35mm Format NS 31 mm - 31 mm File Creation

Date/Time SI 2015:04:17 16:47:44-03:00 G 04/2015 Scene Capture Type NS Standard - Standard File Permissions NS rw-rw-rw- - rw-rw-rw- Image Unique ID NS S13F0SAGI01 - S13F0SAGI01 File Type NS JPEG - JPEG Offset Schema NS 140 - 140

File Type Extension NS jpg - Jpg GPS Version ID NS 2.2.0.0 - 2.2.0.0

MIME Type NS image/jpeg - image/jpeg GPS Latitude Ref SI South - South Exif Byte Order NS Big-endian - Big-endian GPS Longitude Ref SI West - West

(6)

Orientation NS Horizontal - Horizontal GPS Date Stamp SI 2015:04:17 G 04/2015 X Resolution NS 72 - 72 XP Title NA Parque - Parque Y Resolution NS 72 - 72 XP Author I Lucia Oliveira S - Resolution Unit NS inches - Inches XP Subject NA Passeio - Passeio

Software NS I9505VJUGNI2 - I9505VJUGNI2 Padding NS (Binary dt 2044 b) - (Binary data 2044 b) Modify Date SI 2015:04:17 10:58:59 G 04/2015 Compression NS JPEG (old-style) - JPEG (old-style) Artist I Lucia Oliveira S - Thumbnail Offset NS 9716 - 9716

YCbCr Positioning NS Centered - Centered Thumbnail Length NS 45001 - 45001

Copyright I Lucia Oliveira S - About NS uuid:faf5bdd5-ba3d- - uuid:faf5bdd5-ba3d- Exposure Time NS 1/1096 - 1/1096 Rights I Lucia Oliveira S -

F Number NS 2.2 - 2.2 Title NA Parque - Parque Exposure Program NS Program AE - Program AE Description NA Parque - Parque ISO NS 50 - 50 Creator I Lucia Oliveira S - Exif Version NS 220 - 220 Image Width NS 4128 - 4128 Date/Time Orig. SI 2015:04:17 10:58:59 G 04/2015 Image Height NS 2322 - 2322

Create Date SI 2015:04:17 10:58:59 G 04/2015 Encoding Process NS

Baseline DCT, Huffman coding -

Baseline DCT, Huffman coding Components Conf. NS Y, Cb, Cr, - Y, Cb, Cr, Bits Per Sample NS 8 - 8

Shutter Sp. Value NS 1/1134 - 1/1134 Color Components NS 3 - 3

Aperture Value NS 2.2 - 2.2 Y Cb Cr Sub Sampling NS YCbCr4:2:0 (2 2) - YCbCr4:2:0 (2 2) Brightness Value NS 836.328.125 - 836.328.125 Aperture NS 2.2 - 2.2

Exposure

Compensation NS 0 - 0 GPS Date/Time SI

2015:04:17

13:59:36Z G 04/2015 Max Apert. Value NS 2.2 - 2.2 GPS Latitude SI 22 deg 7' 41.37" S G - 22º 7’ Light Source NS Unknown - Unknown GPS Longitude SI 51 deg 24' 3.88" W G - 51º 25’

Flash NS No Flash - No Flash GPS Position SI

22 deg 7' 41.37" S 51 deg 24' 3.88" W G

- 22º 7’ - 51º 25’ Focal Length NS 4.2 mm - 4.2 mm Image Size NS 4128x2322 - 4128x2322 Maker N. Version NS 100 - 100 Megapixels NS 9.6 - 9.6

Device Type NS Cell Phone - Cell Phone

Scale Factor To 35 mm

Equivalent NS 7.4 - 7.4 Face Detect NS Off - Off Shutter Speed NS 1/1096 - 1/1096

User Comment NS metadata-start - metadata-start Create Date SI

2015:04:17

10:58:59.00 G 04/2015 Sub Sec Time

Original NS 0 - 0 Date/Time Original SI

2015:04:17

10:58:59.00 G 04/2015

Sub Sec Time Dig. NS 0 - 0 Thumbnail Image NS Binary data 45001 b - Binary data 45001 b Flashpix Version NS 100 - 100 Circle Of Confusion NS 0.004 mm - 0.004 mm Color Space NS sRGB - sRGB Field Of View NS 60.3 deg - 60.3 deg Exif Image Width NS 4128 - 4128 Focal Length NS (4.2 mm) - (4.2 mm) Exif Image Height NS 2322 - 2322 Hyperfocal Distance NS 1.97 m - 1.97 m GPS Altitude SI 422 m - 422 m Light Value NS 13.4 - 13.4

I=Identificador; SI=Semi-Identificador; NS=Não Sensível; NA=Não Analisado; G=Generalização e S=Supressão. Fonte: Autores.

Os metadados com valores das coordenadas GPS, categorizados como semi-identificadores, receberam também a operação de generalização, pois ao utilizar recursos como

(7)

5 CONSIDERAÇÕES

Os metadados são fundamentais para adicionar valor ao recurso informacional imagético, pois auxiliam o acesso, compartilhamento e recuperação da imagem, todavia, estes devem ser cuidadosamente analisados para não implicar no comprometimento da privacidade.

Por meio do modelo k-anonimato, pode-se analisar imagens digitais, identificando quais metadados podem ser mantidos sem perder a privacidade e ainda manter a descrição do recurso.

É possível inferir que os metadados identificadores devem ser suprimidos de imagens digitais a serem publicadas e a generalização de metadados semi-identificadores tornam os valores menos específicos, minimizando a potencial correlação com outros dados.

Como trabalhos futuros pretende-se tratar um banco de imagens e seus metadados por meio da aplicação do modelo k-anonimato e, ainda simulando ataques por meio de correlacionamento com outras fontes de dados.

REFERÊNCIAS

ALVES, R. C. V.; SANTOS, P. L. V. A. C. Metadados no domínio bibliográfico. Rio de Janeiro: Intertexto, 2013.

BACA, M. (Ed.). Introducción a los metadatos vías a la información digital. Traducito al español por Marisol Jacas-Santoll. Los Angeles: J. Paul Getty Trust, 1999.

BHASKAR, P. et al. Privacy in pervasive computing and open issues. In: International

Conference on. IEEE, 2. Availability, reliability and security, ARES 2007. 2007. p. 147-154

BORKO, H. Information science: what is it? American Documentation, v. 19, n. 1, p. 3-5,

1968.

CHOWDHURY, G.G.; CHOWDHURY, S. Organizing Information: from the shelf to the web.

Facet Publishing, 2007.

CHRISTOPHERSON, K. M. The positive and negative implications of anonymity in Internet

social interactions: “On the Internet, Nobody Knows You’re a Dog”. Computers in Human

Behavior, v. 23, n. 6, p. 3038-3056, 2007.

FOUCAULT, M. Vigiar e punir: nascimento da prisão. Petrópolis: Vozes, 1987.

FUNG, B. CM et al. Introduction to privacy-preserving data publishing: concepts and

techniques. CRC Press, 2010.

HENNE, B.; SMITH, M. Awareness about photos on the Web and how privacy-privacy-tradeoffs

could help. In: Financial Cryptography and Data Security. Springer Berlin Heidelberg, 2013.

p. 131-148.

SAMARATI, P.; SWEENEY, L. Protecting privacy when disclosing information:

(8)

International, 1998. Disponível em:

<https://epic.org/privacy/reidentification/Samarati_Sweeney_paper.pdf>. Acesso em: 20 jan.

2015.

SIMIONATO, A. C.; SANTOS, P. L. V. A. C. O processo de modelagem conceitual (entidade-relacionamento) na catalogação:a criação dos requisitos funcionais para dados imagéticos digitais (rfdid). In: Encontro Internacional de Catalogadores, 9 e Encontro Nacional de

Catalogadores, 2, 2013. Disponível em: <http://www.abinia.org/catalogadores/26-178-1-PB.pdf>. Acesso em: 15 jun. 2015.

SKOPEK, J. M. Anonymity, the production of goods, and institutional design. Fordham L. Rev.,

v. 82, p. 1751, 2013. Disponível em: <http://ir.lawnet.fordham.edu/flr/vol82/iss4/4>. Acesso

Referências

Documentos relacionados

6.1.O candidato que, ao preencher o formulário de inscrição, optar pela realização da Redação como critério de seleção, receberá, em até 24 horas após a

Neste trabalho se buscou definir uma concepção científica para crime; a causa do crime; e como reduzir o crime. Destarte, no primeiro capítulo dessa dissertação se foi

Os valores encontram-se associados à representação da comunidade nacional de entidades com atividade laboratorial e de avaliação da conformidade, da cooperação com as

A situação conflituosa verificada deve ser apreciada sob a lógica e Teoria do Direito, sendo certo que o conflito aparente poderá encontrar diferentes respostas

A organização contratualiza os seguros obrigatórios por lei (acidente pessoais e de responsabilidade civil) conforme o Decreto-Lei no 10/2009 de 12 de Janeiro, para este tipo

- Após conclusão do período de mobilidade internacional no IPB e conclusão da graduação na UTFPR, o IPB atribuirá o diploma de Mestre em Engenharia Industrial (ramo Eng.

Salgados Snacks 3 27 37 85 137 Viennoiserie Viennoiserie Pastelaria Pastry Pão Bread.. Sem Glúten

Allan Kardec, profundo conhecedor da ciência espírita, assumimos hoje a obrigação simples e fácil, dada a sua perícia e grande inteligência na citada ciência, de dar a