• Nenhum resultado encontrado

Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas

N/A
N/A
Protected

Academic year: 2021

Share "Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas"

Copied!
117
0
0

Texto

(1)

Hebert de Oliveira Silva

Uma Abordagem Baseada em Anonimização para

Privacidade de Dados em Plataformas Analíticas

Limeira

2019

(2)

Uma Abordagem Baseada em Anonimização para Privacidade de

Dados em Plataformas Analíticas

Dissertação apresentada à Faculdade de Tecnologia da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Mestre em Tecnologia, na área de Sistemas de Informação e Comunicação.

Orientador: Prof. Dr. Varese Salvador Timóteo

Coorientadora: Profa. Dra. Regina Lucia de Oliveira Moraes

Este exemplar corresponde à versão final da Dissertação defendida por Hebert de Oliveira Silva e orientada pelo Prof. Dr. Varese Salvador Timóteo.

Limeira

2019

(3)

Biblioteca da Faculdade de Tecnologia Felipe de Souza Bueno - CRB 8/8577

Silva, Hebert de Oliveira,

Si38a SilUma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas / Hebert de Oliveira Silva. – Limeira, SP : [s.n.], 2019.

SilOrientador: Varese Salvador Timoteo.

SilCoorientador: Regina Lúcia de Oliveira Moraes.

SilDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Tecnologia.

Sil1. Privacidade. 2. Anonimização de dados. 3. Análise de dados. 4. Big data. I. Timoteo, Varese Salvador, 1972-. II. Moraes, Regina Lúcia de Oliveira, 1956-. III. Universidade Estadual de Campinas. Faculdade de Tecnologia. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: An anonymity-based approach to data privacy in analytical

platforms Palavras-chave em inglês: Privacidade Data anonymization Data analytics Big data

Área de concentração: Sistemas de Informação e Comunicação Titulação: Mestre em Tecnologia

Banca examinadora:

Regina Lúcia de Oliveira Moraes [Coorientador] Leondardo Montecchi

Ferrucio de Franco Rosa

Data de defesa: 25-02-2019

Programa de Pós-Graduação: Tecnologia

Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-0186-5925

- Currículo Lattes do autor: http://lattes.cnpq.br/9689028080261016

(4)

FOLHA DE APROVAÇÃO

Abaixo se apresentam os membros da comissão julgadora da sessão pública de defesa de dissertação para o Título de Mestre em Tecnologia na área de concentração de Sistemas de Informação e Comunicação, a que submeteu o aluno Hebert de Oliveira Silva, em 25 de fevereiro de 2019 na Faculdade de Tecnologia - FT/ UNICAMP, em Limeira/SP.

Profa. Dra. Regina Lúcia de Oliveira Moraes

Presidente da Comissão Julgadora

Prof. Dr. Leonardo Montecchi

IC/UNICAMP

Dr. Ferrucio de Franco Rosa

CTI

Ata da defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós Graduação da FT.

(5)

e os seus planos serão bem-sucedidos.

(6)

À Deus, por me conceder saúde e força. Pelas incontáveis bênçãos em minha vida, as quais, me possibilitaram concluir essa dissertação de mestrado.

Agradeço ao meu orientador prof. Dr. Varese Salvador Timóteo por me aceitar no pro-grama de mestrado da Faculdade de Tecnologia da UNICAMP e por consentir com minha participação no projeto EUBra-BIGSEA.

Agradeço à minha co-orientadora Profa Dra Regina Lúcia de Oliveira Moraes por ter acre-ditado em mim, pela dedicação, orientação e incentivos durante essa jornada. Obrigado por me ajudar a realizar esta etapa em minha formação acadêmica.

A Profa Dra Tânia Basso pela positividade de sua influência, apoio, e todo o aprendizado na execução desta dissertação e dos projetos que executamos em conjunto.

Agradeço a minha esposa, Daniela da Silva Oliveira, por todo amor, apoio e confiança sempre deposita em mim. Também pela paciência ofertada durante a minha carreira aca-dêmica.

Agradeço aos meus filhos Ana Luíza e Pedro Benjamin, pelo amor incondicional e grande compreensão em todas as vezes que me ausentei para desenvolvimento desta dissertação. Agradeço aos meus pais, Raimundo e Regina, pelo suporte familiar e ensinamentos. Te-nho pleno entendimento do quanto se sacrificaram durante toda a vida para que eu tivesse esta e outras oportunidades, meu agradecimento especial a vocês!

Ao Serviço Nacional de Aprendizagem Industrial (SENAI) pelo apoio e flexibilidade conce-dido para realizar este trabalho e cumprimento das atividades necessárias à pós-graduação de alto nível.

Agradeço aos projetos EUBra-BIGSEA e ATMOSPHERE, pelo apoio financeiro e pela oportunidade de aprender de maneira prática, realizando atividades de infraestrutura e desenvolvimento de software.

Enfim, agradeço a Faculdade de Tecnologia da UNICAMP, e todos os professores que participaram da minha formação.

(7)

A internet está presente em quase todas as atividades do dia a dia dos indivíduos na sociedade moderna. Para muitas dessas atividades (por exemplo, compras on line), é necessário o compartilhamento de dados pessoais (por exemplo, dados cadastrais, loca-lização geográfica, entre outros) e dados sensíveis (por exemplo, número de cartão de crédito, valor de salário, diagnósticos médicos, entre outros), fazendo com que a priva-cidade de dados seja uma preocupação de toda a sociedade. É comum que esses dados sejam armazenados em nuvens para que possam ser utilizados em serviços e aplicações Web. Compartilhar informações aumenta a capacidade de operação desses serviços, mas, em contrapartida, exige que sejam utilizados mecanismos de proteção dos dados sensíveis, de forma que esses dados não possam ser indevidamente utilizados por pessoas não auto-rizadas. Um mecanismo que vem sendo utilizado e indicado, em leis e regulamentações, para prover essa proteção é a anonimização de dados.

O processo de anonimização tem como objetivo remover identificadores e ofuscar dados sensíveis, porém sua aplicação não é uma tarefa fácil. É necessário conhecimento em contexto multidisciplinar para analisar os dados e avaliar o impacto que a anonimização traz sobre o processo de mineração de dados. O processo de anonimização, ao suprimir ou alterar os dados de origem, limitam a utilidade desses dados na obtenção de resultados significativos do processo de mineração de dados. Surge, assim, a necessidade de se balancear a proteção e a utilidade dos dados, para que seja mantido um equilíbrio entre a privacidade e a utilidade dos dados em um processo de análise de dados, por exemplo. Outro ponto importante é atender as leis e regulamentações aplicáveis, bem como, as políticas de proteção de dados informadas pelo proprietário dos dados.

Neste trabalho é apresentada uma abordagem para plataformas de análise de dados baseada em anonimização, a fim de melhorar o trade-off (relação de perda e ganho) entre utilidade dos dados e a privacidade dos indivíduos. A abordagem inicial foi definida em duas etapas de anonimização: a primeira, menos restritiva, deve ser aplicada durante o processo de ETL (Extração, Transformação e Carga); a segunda etapa, mais restritiva, ocorre antes da divulgação de dados para usuários externos às plataformas analíticas e complementa a primeira etapa de anonimização. Esta divisão do processo em estágios reduz o trade-off entre a proteção e a utilidade dos dados. Apoiada por políticas de anonimização oriundas de leis e regulamentações, a abordagem foi integrada no projeto EUBra-BIGSEA, projeto este com foco no desenvolvimento de serviços avançados na nu-vem, big data e conectividade massiva de usuários. A solução foi aplicada em sistemas de cidades inteligentes, utilizados como estudos de caso. A princípio, foi utilizado um conjunto de dados de transporte público da cidade de Curitiba, no sul do Brasil, para verificar se após o processo de anonimização, a acurácia (precisão e exatidão) e o de-sempenho (tempo de execução) dos algoritmos de classificação (utilizados no processo de mineração de dados) foram melhorados ou apresentaram piores medidas. Essa avaliação

(8)

Os resultados dos experimentos mostraram que, no geral, ao aplicar a implementação da abordagem, houve um baixo impacto nos resultados de desempenho e utilidade na plataforma de análise de dados. Em alguns casos específicos, inclusive, o desempenho e acurácia (precisão e exatidão) dos algoritmos de classificação melhoraram. Todos os conjuntos de dados tiveram as entradas e saídas submetidas à análise e simulação de ataques de violação de privacidade. Considerando os ataques emulados, nenhum indivíduo foi reidentificado, sugerindo que a técnica pode ser satisfatória para lidar com o problema.

(9)

The internet is present in almost every day-to-day activity of individuals in modern society. For many of these activities (for example, on line shopping), it is necessary to share personal data (for example, social security ID, geographic information, among others), making data privacy a concern of the whole society. It is common for such data to be stored in clouds so that web services and software applications can use them. Sharing information increases the ability of these services to operate, but requires that sensitive data protection mechanisms be used so that such data cannot be utilized by unauthorized persons. A mechanism that has been used and indicated as a solution, in laws and regulations, to provide this protection is data anonymization.

The anonymization process aims to remove identifiers and sensitive data, but its appli-cation is not an easy task. It requires knowledge in a multidisciplinary context to analyze the data and evaluate the impact that the anonymization brings on the data mining pro-cess. The anonymization by suppressing or changing the source data limits the usefulness of such data in obtaining significant results from the data mining process, for example. So, it is necessary to balance the protection and utility of the data to maintain a balance between privacy and the usefulness of data. Another important point is to comply with the applicable laws and regulations, as well as the business policies informed by the data owner.

In this work, it is presented an anonymization-based approach for use in data analyt-ics platforms in order to improve the trade-off between data utility and the individuals privacy. The initial approach was divided in two steps of anonymization: the first, during the ETL (Extract, Transformation, and Load) process anonymizes only identifiers; the second stage occurs before the dissemination of the results to external users of the ana-lytic platforms and complements the first stage anonymization (now on the data mining results), ensuring the privacy of sensitive data. The proposed approach, supported by privacy policies that were stemmed from laws and regulations, has been integrated into an EUBra-BIGSEA project, which was focussed on cloud services for big data analysis.

The solution was applied in Smart Cities systems, used as case studies. At first, a public transportation data from Curitiba (in the south of Brazil), was used to verify if after the anonymization process, accuracy (precision) and performance (runtime) of the classification algorithms were improved or presented worse measures. This evaluation was later extended, using analytical data sets in other context from University of California Irvine (UCI).

In general, the experiments results showed that, when applying the approach imple-mentation, a low impact on performance and utility was observed on the results. In some specific cases, the performance and accuracy (precision) of the classification algorithms have even better results. All data sets had input and output submitted to analysis and simulation of privacy breach attacks. Considering the emulated attacks, no individual was re-identified, suggesting that the technique may be satisfactory to deal with the problem.

(10)

2.1 Distribuição da causa raiz da violação de dados. Adaptado de

(PONE-MON, 2018) . . . 26

2.2 Supressão de atributos da tabela (Fonte: Ohm (2009)) . . . 29

2.3 Estrutura do CEP (CORREIOS, 2018) . . . 30

2.4 CEP setor de Campinas (São Paulo/Brasil) e adjacências (CORREIOS, 2018) . . . 30

2.5 Tabela anonimizada por agregação (Adaptada de (OHM, 2009)) . . . 31

2.6 Tabela anonimizada por κ-anonymity (EL EMAM; DANKAR, 2008) . . . 32

2.7 Tabela anonimizada por `-diversity (SUMATHIE, 2016) . . . 33

4.1 Abordagem para Anonimização e cálculo do Risco de reidentificação para Análise de Dados em Big Data . . . 48

4.2 Arquitetura de integração do PRIVAaaS no Projeto EUBra-BIGSEA(EUBRA-BIGSEA, 2017a) . . . 49

4.3 Exemplo de uso da anonimização 1.1 e 1.2 utilizando a biblioteca PRIVA-aaS(EUBRA-BIGSEA, 2017a) . . . 51

4.4 Exemplo do arquivo de política de anonimização incluindo limite aceito para o risco de reidentificação . . . 54

4.5 Fluxo de execução do PRIVAaaS para anonimização 2 . . . 57

4.6 Exemplo de uso do PRIVAaaS - Anonimização 2 . . . 59

4.7 Primeiro cenário - Ataque do Promotor . . . 60

4.8 Segundo cenário - Ataque do Jornalista . . . 61

5.1 Abordagem experimental . . . 63

5.2 Pirâmide etária da cidade de Curitiba (GEOGRAFIA E ESTATÍSTICA - IBGE, 2010) . . . 66

5.3 Integração de base fictícia com dados reais de transporte da cidade de Curitiba 68 5.4 Amostra de dados brutos . . . 73

5.5 Amostra de dados anonimizados no primeiro estágio . . . 73

5.6 Amostra de anonimização executada no segundo estágio . . . 73

5.7 Acurácia para o tipo do cartão de crédito . . . 74

5.8 Acurácia para o tipo de veículo . . . 75

5.9 Acurácia para o tipo de cor . . . 76

5.10 Acurácia para o navegador de internet utilizado . . . 77

5.11 Desempenho para o tipo de cartão de crédito . . . 78

5.12 Desempenho para o tipo de veículo . . . 78

5.13 Desempenho para o tipo de cor . . . 79

5.14 Desempenho para o tipo de navegador de internet . . . 80

(11)

5.18 Riscos de reidentificação para o framework . . . 88

5.19 Probabilidade de reidentificação - Primeira perspectiva de ataques . . . 90

5.20 Probabilidade de reidentificação - Segunda perspectiva de ataques . . . 92

5.21 Resultados médios do processo de anonimização - Dados Sociais . . . 94

5.22 Resultado médios do processo de anonimização - Dados Médicos . . . 95

5.23 Resultado do processo de mineração para os conjunto de dados sociais . . . 97

5.24 Resultado do processo de mineração para os conjunto de dados Médicos . . 97

5.25 Distribuição dos resultados dos ataques para os dados Sociais . . . 100

(12)

2.1 Tabela anonimizada por τ -closeness (N. LI; T. LI; V., 2007) . . . 34

2.2 Características das ferramentas de anonimização . . . 35

2.3 Análise de recursos disponíveis . . . 36

3.1 Resumo comparativo dos trabalhos relacionados . . . 45

4.1 Exemplo de hierarquia para anonimização . . . 55

5.1 Quantidade de registros nos conjuntos de dados selecionados do repositório UCI . . . 69

5.2 Técnicas de anonimização aplicadas aos principais atributos dos dados de transporte da cidade de Curitiba com base no trabalho de Matsunaga et al. (2017) . . . 70

5.3 Resultados para ataques de ligação na tabela anonimizada . . . 90

5.4 Resultados para ataques de ligação na tabela anonimizada . . . 91

5.5 Resultados dos ataques para conjunto de dados Sociais . . . 101

(13)

1 Introdução 15

1.1 Motivação . . . 19

1.2 Objetivos e contribuições . . . 20

1.3 Organização do trabalho . . . 21

2 Fundamentação Teórica 23 2.1 Privacidade dos dados . . . 23

2.1.1 Casos de violação de privacidade . . . 25

2.2 Anonimização de dados . . . 28 2.2.1 Técnicas de anonimização . . . 28 2.2.2 Modelos de anonimização . . . 31 2.2.3 Risco de reidentificação . . . 36 2.3 Mineração de dados . . . 37 2.3.1 Classificação de dados . . . 38

2.3.2 Utilidade dos dados . . . 39

3 Trabalhos Relacionados 40 3.1 Avaliação do impacto da anonimização . . . 40

3.2 Avaliação do risco de reidentificação . . . 42

3.3 Frameworks para preservação da privacidade . . . 44

4 Abordagem Proposta 46 4.1 Abordagem de anonimização para plataformas de análise de dados . . . 46

4.2 Detalhamento da abordagem de anonimização . . . 49

4.2.1 Anonimização 1 - Políticas e ferramenta de anonimização . . . 50

4.2.2 Anonimização 2 - Anonimização com inclusão do risco de reidenti-ficação . . . 52

4.3 Extensão da política de anonimização para o risco de reidentificação . . . . 53

4.3.1 Hierarquias de generalização . . . 54

4.4 Detalhamento do componente de anonimização que inclui o risco de rei-dentificação . . . 55

4.4.1 Exemplo de uso do PRIVAaaS . . . 58

4.5 Injeção dos ataques de reidentificação . . . 59

5 Estudo de Caso 62 5.1 Abordagem experimental . . . 63

5.2 Conjuntos de dados utilizados . . . 65

5.2.1 Dados de transporte da cidade de Curitiba . . . 65

(14)

5.3.1 Avaliação da classificação . . . 70

5.3.2 Avaliação do risco de reidentificação . . . 80

5.3.3 Discussão dos resultados da primeira etapa . . . 82

5.4 Segunda etapa do estudo de caso: Integração com a plataforma Ophidia . . 83

5.4.1 Avaliação da Abordagem integrada à plataforma Ophidia . . . 87

5.4.2 Avaliação da injeção dos ataques de reidentificação para os dados de saída da plataforma Ophidia . . . 88

5.5 Terceira etapa do estudo de caso: Extensão dos experimentos com dados do repositório da UCI . . . 92

5.5.1 Avaliação da anonimização . . . 93

5.5.2 Avaliação da classificação . . . 96

5.5.3 Avaliação da injeção dos ataques de reidentificação . . . 98

6 Conclusão 103 6.1 Trabalhos futuros . . . 108

6.2 Publicações . . . 108

(15)

Capítulo 1

Introdução

As mais variadas tecnologias disponíveis para uso das pessoas e organizações permitem que os recursos de computação sejam fornecidos com alta eficiência e eficácia, tais como serviços de compras, educação, entretenimento, entre outros. Essas tecnologias muitas vezes são baseadas em big data, termo este que é utilizado para se referir a conjuntos de dados muito grandes ou muito complexos para o processamento por produtos de soft-ware convencionais. A tecnologia que executa o cruzamento das informações armazenadas em big data, com intuito de descobrir informações, padrões e correlações desconhecidas é denominada como análise de dados (em inglês, data analytics). Ambas as tecnologias (big data e data analytics) têm suportado o crescimento de pesquisas em diversas áreas, utilizando os mais variados tipos de sistemas e algoritmos, como classificadores de da-dos, para analisar e implementar, por exemplo, melhorias na descoberta de informação e proporcionar maior agilidade na tomada de decisões (TABLEAU, 2018).

Embora a adoção dessas tecnologias se mostrarem muito vantajosas, tanto aos usuá-rios quanto às empresas, os dados manipulados por meio da análise de big data geralmente incluem informações pessoais e confidenciais dos usuários, podendo implicar em ameaças à privacidade dos indivíduos. Sendo assim, as organizações, interessadas em prover so-luções inteligentes em resposta a problemas cotidianos, devem prezar pelo cuidado com a privacidade dos dados dos indivíduos, adotando essas tecnologias. Uma das possíveis soluções para resolver esse problema é o uso de estratégias para anonimização de dados.

A anonimização de dados, também conhecida em inglês como de-identification, consiste em técnicas que podem ser aplicadas nos conjuntos de dados para impedir a identificação dos usuários aos quais os registros do conjunto de dados pertencem. Normalmente, a

(16)

ano-nimização é aplicada para evitar o vazamento das informações confidenciais dos usuários quando existe a necessidade de divulgar dados para usuários externos às plataformas de tecnologia ou compartilha-los com parceiros. Sendo assim, o processo de anonimização, geralmente, é executado antes que os dados sejam divulgados ou compartilhados.

No contexto de Big Data, dados pessoais disponibilizados pelos usuários são cons-tantemente armazenados e manipulados. Dessa forma, ao longo do tempo, os usuários deixarão uma trilha digital dos seus dados confidenciais que foram coletados por apli-cativos e sistemas computacionais. Se por um lado a coleta dessas informações permite aos usuários se beneficiarem dos serviços oferecidos pelas plataformas de tecnologias e aplicativos, por outro lado, causam preocupações em relação à proteção da privacidade desses dados. Essas preocupações vão além do sentimento positivo dos usuários a respeito das empresas que protegem os dados pessoais, sendo, inclusive, impostas por leis e regula-mentações, tais como a Regulamentação Geral da Proteção de Dados Europeia (GDPR) (EUROPEU, 2018), Lei Geral de Proteção de Dados (LGPD) (REPÚBLICA, 2018), Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA)(HHS, 2017), PCI-DSS (Padrão de Segurança de Dados do setor de cartões para pagamento) (COUNCIL, 2006), entre outras.

O não cumprimento das legislações aplicáveis ou a proteção inadequada da privacidade dos dados pessoais pode causar danos à imagem das organizações, assim como acarretar multas altíssimas impostas pelas leis, tal como é determinado pela GDPR e futuramente pela LGPD no Brasil. Podemos citar o caso do uso inadequado dos dados de usuários da rede social Facebook pela Cambridge Analítica, durante o período de eleição americana, que resultou em processo judicial e derrubou o valor de mercado da empresa em março de 2018 (BBC, 2018), impondo uma multa de quinhentas mil libras à plataforma de rede social. Além da conformidade com as leis, a proteção da privacidade de dados dos usuários aumenta a credibilidade das organizações (BASSO; MORAES et al., 2015).

Nesse contexto, embora seja necessário manipular informações dos indivíduos, tam-bém é necessário preservar a privacidade e a identidade destes. Esse paradoxo mostra a necessidade de se estabelecer mecanismos de proteção adequados que regulamentem o uso dos dados sem que haja violação da privacidade do indivíduo. Porém, o desenvol-vimento desses mecanismos deve levar em consideração a utilidade desses dados. Essa antagônica relação entre a privacidade e a utilidade dos dados configura um trade-off,

(17)

representando uma relação de perda e ganho entre a privacidade e utilidade dos dados, ou seja, quanto mais se implementa mecanismos de privacidade menor será a utilidade dos dados e vice-versa.

As técnicas de anonimização podem ser utilizadas para contribuir com o equilíbrio desse trade-off. Ao invés de simplesmente remover os atributos dos conjuntos de dados, as técnicas de anonimização podem, por exemplo, generalizar, agregar ou suprimir parcial-mente dígitos dos atributos. Essas técnicas, portanto, podem contribuir para implementar a privacidade dos dados de indivíduos com uma perda menos acentuada da utilidade desses dados. Além disso, o modelo de privacidade κ-anonymity (SWEENEY, 2002) se mostrou eficiente nos experimentos executados, contribuindo com a privacidade dos dados sem que sua implementação implique na perda da utilidade dos dados por completo e, também, trazendo sob controle o risco de reverter o processo de anonimização.

Esta dissertação propõe uma abordagem baseada no processo de anonimização de dados que utiliza políticas de anonimização e o risco de reidentificação para controle do processo. A abordagem foi desenvolvida para ser integrada em um Framework de análise de grandes volumes de dados. Essa abordagem, basicamente, é composta de duas fases de anonimização. A primeira fase de anonimização implementa uma política de anonimização menos restritiva, que é aplicada antes do processo de análise de dados (durante o processo de ETL - Extração, Transformação e Carregamento). Já na segunda fase é aplicada uma política mais restritiva, antes da divulgação de informações para usuários externos à plataforma. O framework para a análise de dados recebe os dados “brutos” que são submetidos ao processo de ETL, antes de qualquer tratamento interno à plataforma. Neste momento, os dados são submetidos à política de anonimização menos restritiva, em que se removem dados identificadores, tais como: nomes, RG, CPF, entre outros. O nível de anonimização mais restritivo é aplicado sobre o resultado da análise de dados, como último tratamento antes da saída dos dados da plataforma. Nesse caso, os dados anonimizados são os dados sensíveis (ou seja, informações particulares que não possam ser divulgadas sem o devido tratamento, tais como um diagnóstico médico ou o valor do salário de um indivíduo) ou semi-identificadores (dados que, ao serem combinados com outras informações, possam revelar a identidade do indivíduo, como por exemplo seu endereço, sobrenome, números de cartões de crédito, entre outros).

(18)

Nos experimentos apresentados, a política de anonimização foi definida de acordo com o trabalho de Matsunaga et al. (2017) , que determina quais técnicas devem ser utilizadas em cada atributo (nomes das colunas de uma tabela) de dados de acordo com as legislações vigentes, tais como HIPAA (HHS, 2017), PCI-DSS (COUNCIL, 2006) e GDPR (EURO-PEU, 2018). Os dados utilizados foram primeiramente, dados reais do transporte público da cidade de Curitiba, cedidos no âmbito do projeto EUBra-BIGSEA 1. Para estender

os resultados obtidos, foram utilizados também oito conjuntos de dados provenientes do repositório de dados analíticos da Universidade da Califórnia, Irvine (UCI).

De acordo com os resultados obtidos foi possível concluir que a anonimização dos da-dos é uma forma viável de se preservar a privacidade destes e garantir as capacidades de mineração de dados (no que diz respeito à utilidade dos dados). Utilizando-se o framework proposto e as técnicas a ele incorporadas, como apresentados neste trabalho, o processo de anonimização é facilitado, uma vez que essas técnicas removem os atributos que repre-sentam os identificadores pessoais ou os agregam de forma a preservar a identidade de um indivíduo. Para cada estágio do processo de anonimização, a acurácia (ou seja, o número de predições corretas entre todas as previsões feitas pelos classificadores) e o desempe-nho (tempo de execução) foram avaliados. A avaliação da acurácia nos ajuda a entender melhor a utilidade dos dados após terem sido anonimizados, enquanto que a avaliação do desempenho ajuda a entender melhor se há custos computacionais introduzidos pela técnica de anonimização usada. Em alguns casos, conforme apresentados nos resultados dos experimentos (capítulo 5), a etapa de análise de dados apresentou melhorias para alguns dos algoritmos de classificação.

O risco de reidentificação do conjunto de dados anonimizado foi calculado utilizando a ferramenta ARX Anonymization Tools (PRASSER; KOHLMAYER, 2015). Ao final, os conjuntos de dados que seriam publicados para usuários externos à plataforma foram submetidos a ataques, para verificar se os dados ainda ficariam vulneráveis à violação da privacidade. Foram escolhidos dois cenários possíveis, respectivamente: o ataque de jornalista (em que o atacante não conhece nenhuma particularidade do conjunto de dados) e o de promotor (que considera que o atacante possui a identidade de um indivíduo em quem se está interessado). Os ataques injetados não foram bem sucedidos (do ponto de

1O Projeto EUBra-BIGSEA é financiado pela terceira chamada coordenada Europa - Brasil focado no

desenvolvimento de serviços avançados de QoS para aplicações de Big Data, monstrados no âmbito das Sociedades massivamente conectadas. Mais informações em http://www.eubra-bigsea.eu

(19)

vista da quebra da privacidade), pois nenhum indivíduo pôde ser reidentificado. Esse resultado confirma a qualidade e a efetividade da abordagem de anonimização proposta que garantiu a privacidade de dados dos indivíduos nos cenários de ataques executados.

1.1

Motivação

A questão da privacidade no contexto do processamento de informações de indivíduos em big data tem ocupado um lugar de destaque na pesquisa acadêmica nos últimos anos, conforme é evidenciado no Capítulo 3 - Trabalhos Relacionados. Os incidentes com o vazamento de informações pessoais é crescente. Por exemplo, em 2018 foram expostos dados pessoais de mais de 500 milhões de dados de clientes da rede hoteleira Marriott. No anos de 2017, 143 milhões de dados pessoais dos clientes da Equifax foram vazados. Também foram expostos dados pessoais de aproximadamente 412 milhões de usuários da rede Adult Friend Finder (rede de relacionamentos adultos) em 2016 (ARMERDING, 2018). O custo médio total da violação da privacidade de dados é de aproximadamente 3,86 milhões de dólares (PONEMON, 2018), como também é crescente o número de leis que foram editadas para reger a questão, obrigando as empresas a adotarem soluções que as preservem perante a justiça e a sociedade. No caso do Facebook, se na época a GDPR já estivesse em vigor na União Europeia, a multa aplicada teria sido em torno de 17 milhões de libras, ou até 4% do faturamento do ano anterior (o que for maior), valor muito superior ao aplicado (500 mil libras) (PRESS, 2018).

Outra demanda que torna a privacidade de dados essencial é o uso crescente da análise de grandes volumes de dados e seus algoritmos, que possibilitam a extração de conheci-mento desses dados. A análise de dados é cada vez mais aplicável em cenários do mundo real, dando suporte ao processo de decisão, com benefícios para toda a sociedade e orga-nizações (como avanços em pesquisas, definições de novas tecnologias, entre outros). Sob a ótica da anonimização de dados, o trade-off entre a privacidade e a utilidade dos da-dos ainda é uma questão em aberto. Se a anonimização não for executada corretamente, motivada pela necessidade de se manter a utilidade dos dados, o risco de se reidentificar indivíduos pode ser alto.

A motivação para o desenvolvimento deste trabalho, surge quando um consórcio de um projeto internacional (EUBRA-BIGSEA, 2017b) foi aprovado com o objetivo de

(20)

de-senvolver uma plataforma de apoio à análise de dados em ambiente de big data. A solução apresentada não poderia prescindir de uma abordagem que tratasse a privacidade de da-dos levando em consideração as especificidades do ambiente, que dependia de detalhes da-dos dados para obter os resultados necessários ao mesmo tempo que a privacidade dos dados precisava ser preservada.

Na prática, este estudo pretende responder às seguintes questões de pesquisa:

Q1. A anonimização de dados contribui ou prejudica a qualidade dos resultados dos algoritmos de classificação utilizados no processo de mineração de dados?

Q2. Duas fases de anonimização, uma menos restritiva e outra mais restritiva, podem contribuir para manter a utilidade dos dados tratados em plataformas analíticas?

Q3. Considerando os dados utilizados nos experimentos, é possível determinar um ponto de equilíbrio entre a privacidade e a utilidade dos dados?

Q4. O processo de anonimização, utilizando o risco de reidentificação, é viável, sob o aspecto da utilidade de dados e da eficácia da proteção da privacidade?

1.2

Objetivos e contribuições

Considerando a motivação apresentada, o principal objetivo deste trabalho foi propor uma abordagem para anonimização de dados em plataformas de análise de dados, utilizando um processo de anonimização em duas fases. Na primeira fase se permite um menor nível de anonimização quando os dados se encontram em um ambiente computacional mais controlado e, numa segunda fase, aumenta-se o nível de anonimização antes que os dados sejam entregues a um ambiente externo. Para atingir o objetivo proposto, foi necessário desenvolver e adaptar um conjunto de serviços para a anonimização de dados que considerasse não apenas o risco de reidentificação como também a perda da utilidade dos dados, levando em consideração as necessidades de um ambiente de análise de dados. Nesse contexto, é importante que o custodiante dos dados possa decidir e aplicar com facilidade as técnicas de anonimização que devem ser implementadas para cada atributo existente no seu conjunto de dados, respeitando leis e regulamentações atualmente existentes. Além disso, cabe a ele decidir o nível de risco que está disposto a correr se um indivíduo for identificado em meio aos dados que tornar público para que, em contrapartida, possa extrair maiores informações dos dados em um processo de análise de

(21)

dados. Para possibilitar essa decisão, a solução apresentada permite configurar o limite do nível risco de reidentificação e apoia um melhor uso do detalhamento dos dados ao fazer uso do processo em duas fases. Sendo assim, as contribuições dessa dissertação podem ser sumarizadas como:

i) Definição de um framework para abordagem da privacidade de dados em plataformas analíticas baseada em anonimização;

ii) Um processo para anonimização de conjuntos de dados, pautados por políticas de anonimização formuladas com base em leis e regulamentações de diversos países, que permitam decidir o nível de anonimização implementado, visando melhorar o equilíbrio (trade-off ) entre privacidade e a utilidade de dados durante a análise dos grandes volumes de dados para diferentes cenários, verificando, inclusive, o cálculo da perda de Informação; iii) Identificar o impacto da anonimização de dados nos algoritmos de classificação, considerando a anonimização de quatro categorias de dados (dados brutos, anonimização de identificadores, anonimização acrescida de atributos semi-identificadores, anonimização acrescida de atributos sensíveis);

iv) avaliação do risco de reidentificação (em inglês de-anonymization risk ) de dados anonimizados pela solução proposta por meio da emulação de diferentes cenários de ata-ques de ligação de informações (em inglês, linkage attacks). A definição de um processo para injeção de ataques de reidentificação pode ajudar a prevenir futuras tentativas se-melhantes.

1.3

Organização do trabalho

Além desse capítulo, que apresentou a Introdução, a motivação e as principais contribui-ções do trabalho, o Capítulo 2 apresenta os principais conceitos e paradigmas nos domínios da privacidade dos dados individuais, utilidade dos dados e o risco de reidentificação. Os Trabalhos Relacionados ao tema pesquisado são apresentados no Capítulo 3. O Capítulo 4 apresenta a abordagem proposta, trazendo as especificações sobre a perspectiva da in-fraestrutura, características dos dados e aplicações. O Capítulo 5 apresenta o estudo de caso que descreve os cenários e o conjunto de dados que foram utilizados, bem como as intercorrências e adaptações que foram necessárias para validar a abordagem proposta. Ainda no capítulo 5 são apresentados os resultados obtidos, acrescidos das devidas

(22)

con-siderações e discussões para cada etapa do estudo de caso. Finalmente, as conclusões do estudo desenvolvido e o que pode ser feito como trabalhos futuros são apresentados no Capítulo 6.

(23)

Capítulo 2

Fundamentação Teórica

Este Capítulo tem como objetivo introduzir o leitor no contexto da privacidade de dados, técnicas de anonimização, utilidade de dados na esfera da análise dos dados, e o risco de reidentificação de indivíduos em dados pós anonimização. Brevemente se discute o que é a privacidade dos dados no contexto deste trabalho e os principais marcos regulatórios no Brasil e no mundo, acrescidos de estudos e casos reais sobre violação da privacidade. Em seguida, neste capítulo, é fornecida uma breve descrição da classificação dos tipos de atributos em função das técnicas e modelos de anonimização de dados, tais como os mode-los κ-anonymity, `-diversity e τ -cmode-loseness. Ainda é apresentado um estudo comparativo sobre algumas das ferramentas de iniciativa livre, disponíveis, para aplicação das técnicas de anonimização, que resultou na decisão do uso da ferramenta ARX Anonymization Tool (ARX, 2018), que foi integrada no framework do projeto EUBra-BIGSEA mais amplo e que é citado no capítulo 5. Ao final deste capítulo, são apresentadas as metodologias de cálculo do risco de reidentificação dos dados pós anonimizados e da perda de dados em decorrência da anonimização dos dados.

2.1

Privacidade dos dados

O conceito de privacidade está ligado ao isolamento, intimidade, algo que é privado, que é secreto ou restrito, isto é, “Vida privada; intimidade, privatividade” (MELHORAMEN-TOS, 2019). É inegável que o indivíduo tem direito à proteção de sua privacidade, mas o conceito de privacidade e suas extensões precisam ser redefinidas ou adaptadas de acordo com o contexto histórico, político e social (WARREN; BRANDEIS, 1890). Para o

(24)

con-texto atual, a privacidade está relacionada às informações pessoais. Wang et al. (1998) afirmam que “a privacidade geralmente se refere a informações pessoais e que a invasão de privacidade geralmente é interpretada como a coleta, divulgação ou uso não autorizado de informações pessoais como resultado direto de transações de comércio eletrônico”. De acordo com Bertino et al. (2008), em uma definição mais atual, privacidade é “o direito de um indivíduo estar a salvo da divulgação não autorizada de informações sobre si mesmo contidas em um repositório eletrônico”.

De acordo com Branco et al. (2014) existem três elementos básicos em privacidade - confidencialidade, anonimato e isolamento (ou solidão, o direito de estar sozinho) - es-tendido em três dimensões: Privacidade Territorial, Privacidade Individual e Privacidade da Informação (proteção de dados). O foco principal deste trabalho é a proteção da identidade do usuário, com foco na dimensão da privacidade da informação, embora não limitada a ela, quando existe a necessidade de compartilhamento de dados entre sistemas e a divulgação de informações para usuários ou sistemas externos às plataformas de aná-lise de dados. Assim, no contexto desse trabalho vamos adotar as definições de Bertino et al. (2008), no que se refere ao direito do indivíduo de estar a salvo da divulgação não autorizada de suas informações contidas em um repositório eletrônico, seja ela por resultado de direito do comércio eletrônico, como definido por Wang et al. (1998), ou qualquer outra transação eletrônica gerada e/ou coletada, pelo uso das novas tecnologias (tais como big data e data analytics).

Vários países possuem leis que visam proteger a privacidade da informação. Neste tra-balho, foram consideradas preferencialmente as leis regidas no Brasil e na União Européia (leis que afetam diretamente os países participantes do projeto EUBra-BIGSEA) ou mais relevantes para os tipos de dados (como é o caso da HIPAA e PCI-DS).

A lei brasileira 12.965, promulgada em 23 de abril de 2014 (também conhecida como Marco Civil da Internet), não especifica exatamente como proteger a privacidade da in-formação, mas estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil. Em seu art. 3o, parágrafos II e III, apresenta-se o princípio da proteção da

privacidade e segurança dos dados pessoais. Em 14 de agosto de 2018, o congresso naci-onal do Brasil aprovou a nova lei 13.709, denominada LGPD - Lei Geral de Proteção de Dados, com previsão de início de vigência em 2020. Após a promulgação do LGPD, as

(25)

organizações podem ser multadas em um montante de 2% da receita anual, limitadas a 50 milhões de reais (cerca de 14 milhões de dólares).

Em 25 de maio de 2018 entrou em vigor, na União Europeia, o Regulamento Geral de Proteção de Dados (UE) 2016/679, conhecida como “GDPR”, abrangendo o espaço econômico e territorial Europeu. As empresas, obrigatoriamente, devem relatar qualquer caso de violação de dados dentro de 72 horas se este ensejar na violação da privacidade de usuários. Em alguns casos, os infratores podem ser multados em até 20 milhões de euros e, se for uma empresa, até 4% do faturamento anual do exercício anterior (EUROPÉIA, 2018).

O Reino Unido possui o Data Protection Act (DPA), que controla como as informações pessoais são usadas por organizações, empresas e governo. A DPA afirma que todos são responsáveis pelo uso dos dados e que todos devem garantir que o relatório siga os prin-cípios de proteção de dados listados e exija maior proteção de informações confidenciais, como registros de saúde e criminais, opiniões, religião, entre outros (BRITÂNICO, 1998). A privacidade de dados associada a dados médicos também é uma preocupação nos EUA, sendo regulamentada pelo HIPAA (Health Insurance Portability and Accountability Act). O HIPAA estabelece padrões para proteger registros médicos de indivíduos ou qualquer informação pessoal de saúde aplicável aos planos de saúde e profissionais da área que realizam transações eletrônicas, garantindo: custódia segura (física e lógica); limites, condições, autorização de uso da informação, entre outros (HHS, 2017).

As Organizações que implementam a ISO 27001 (INTERNATIONAL ORGANIZA-TION FOR STANDARDIZAORGANIZA-TION, 2013) - voltada para a segurança da informação, são auditadas quanto ao cumprimento dos requisitos legais, com objetivo de evitar violações de qualquer lei, obrigações estatutárias, regulamentares ou contratuais e de quaisquer re-quisitos de segurança. O item A.15.1.4, que se refere a Proteção de dados e privacidade das informações pessoais, avalia os controles da proteção de dados e a privacidade, onde devem ser asseguradas conforme exigido pela legislação pertinente, regulamentos e, se aplicável, cláusulas contratuais.

2.1.1

Casos de violação de privacidade

Mesmo com as leis e regulamentações impostas, casos de violação de privacidade con-tinuam a acontecer. Esses casos têm se tornado cada vez mais preocupantes para as

(26)

empresas e organizações, principalmente quando se observam os custos e prejuízos em termos financeiros que podem causar. Além dos prejuízos na esfera financeira, casos de violação de privacidade também podem prejudicar imagem e credibilidade, tanto dos usuários que têm seus dados violados, quanto das empresas e organizações que deveriam proteger essas informações.

A Figura 2.1, adaptada do estudo realizado pelo Ponemon Institute (PONEMON, 2018), apresenta um resumo das principais causas de violações de dados em uma base consolidada de 419 organizações, pesquisadas nos seguintes países: Estados Unidos, Reino Unido, Alemanha, Austrália, França, Brasil, Japão, Itália, Índia, Canadá, África do Sul, Emirados Árabes Unidos, Arábia Saudita, Singapura, Indonésia, Filipinas e Malásia. Dos incidentes, 48% foram decorrentes de ataques maliciosos ou criminosos, 27% devido a negligencia de funcionários efetivos ou terceiros (erro humano) e 25% envolveram falhas no sistema, incluindo falhas de TI e de processos de negócios. O Estudo revela também que o custo médio total de uma violação de dados é 3,86 milhões de dólares e que o aumento do custo médio total quando comparado ao ano anterior é de 6,5%. O Custo médio por registro perdido ou roubado chega a 148 dólares com uma probabilidade de violação de material recorrente nos próximos dois anos de 27,9%. Outro fato relevante identificado no estudo é que a economia média de custos com adoção de uma equipe de resposta a incidentes é de apenas 14 dólares por registro, cerca de 10% do custo médio por registro perdido ou roubado. Dessa forma, entende-se que, do ponto de vista financeiro, a prevenção é mais vantajosa do que o ressarcimento de incidentes de vazamento de informações.

Figura 2.1: Distribuição da causa raiz da violação de dados. Adaptado de (PONEMON, 2018)

(27)

De acordo com o estudo Data Breaches (QUICK et al., 2018), mais de 400 casos públicos de violação de dados foram identificados entre 2004 e 2016 em uma variedade de setores envolvendo empresas, governos e universidades. Entre os casos de violação de privacidade, são destacados, a seguir, os casos que chamam a atenção especificamente pela exposição dos dados pessoais, que talvez, poderiam ter sido evitados, se adotada uma estratégia de anonimização.

Em 2012, um funcionário da imigração australiana enviou acidentalmente aos orga-nizadores da Copa de Futebol Asiático os números dos passaportes, detalhes do visto e de identificação de todos os líderes, incluindo o presidente dos EUA, Barack Obama, que compareceria à reunião do G20 em Brisbane (QUICK et al., 2018). Na cidade de Nova York, EUA, em 2014, um pedido de liberdade de informação resultou na divulgação de dados sobre as 173 milhões de viagens feitas pelos táxis da cidade. Devido a falta de anonimização adequada, foram divulgados dados referentes aos locais de partida e che-gada de cada táxi, documentos de identificação dos motoristas, prefixo do veículo e outras informações relevantes (PANDURANGAN, 2014).

Ainda em 2012, O roubo de um laptop pode ter sido a razão da exposição dos dados de clientes (nomes, números de seguro social, números de identificação e informações de seguro saúde, datas de nascimento, diagnósticos e outras informações médicas, endereços e números de telefone) do sistema de saúde americano (MCCANN, 2013).

O grupo LuzSec, grupo ativista Hacker, divulgou dados de 163.792 militares (nomes, nomes de usuários, endereços de e-mail, endereços IP e senhas exclusivas) nos EUA em 2011 (CONSTANTIN, 2012). Em 2012, o Departamento de Tecnologia de Utah alterou seus registros de reclamações para um novo servidor e os hackers conseguiram contor-nar o sistema de segurança de várias camadas, que continha números da Previdência Social para solicitações de assistência médica dos cidadãos. No mesmo ano, na Grécia, um programador foi preso por supostamente roubar informações de identidade do que poderia corresponder a 83% da população do país. Em 2008, a então equipe e agência de veteranos do Reino Unido, responsável por fundos de pensão militares e civis, tiveram roubadas informações privadas de seus funcionários em dispositivo USB. Durante a se-mana de prevenção de fraudes de identidade nacional foi anunciado que um disco rígido contendo informações pessoais de membros das forças armadas do Reino Unido (passa-porte, números de seguro nacional, dados bancários, entre outros) desapareceu (BBC,

(28)

2008). Em 2015, milhões de dados de carteiras de motorista suecas foram disponibiliza-das para profissionais de TI na Europa Ocidental quando a Agência Sueca de Transportes (Transportstyrelsen) terceirizou sua manutenção de TI para a IBM. O escândalo chegou às manchetes na Suécia quando a ex-diretora-geral da agência, Maria Ågren, foi multada em 70.000 coroas suecas pela falta de proteção adequada de informações sigilosas (LOCAL, 2017).

2.2

Anonimização de dados

Uma das principais estratégias na busca da proteção da privacidade de dados é a anoni-mização. Quando aplicada corretamente, as técnicas e modelos de anonimização podem evitar a recuperação da identidade de indivíduos, quando um atacante utiliza dados pú-blicos como apoio, tais como relatórios de contas públicas ou na manipulação de dados pessoais por soluções tecnológicas. O processo de anonimização visa mascarar ou ofuscar os dados antes destes serem disponibilizados ou compartilhados, utilizando técnicas para que os indivíduos que tiveram os dados anonimizados não possam ser identificados no-vamente (BASSO; MATSUNAGA et al., 2016), ou seja, o processo de anonimização não possa ser revertido.

Um passo importante para execução da anonimização é definir quais conjuntos de dados (atributos) devem ser anonimizados e quais técnicas devem ser aplicadas a cada um deles. Os atributos devem, portanto, ser classificados de acordo com a sensibilidade da informação que cada um representa, caso seja divulgado ou compartilhado.

A classificação dos atributos está dividida em: (i) Atributos identificadores, que iden-tificam os indivíduos (por exemplo, nome, CPF, RG); (ii) atributos semi-identificadores, que, se combinados com informações externas, expõem indivíduos ou aumentam a certeza sobre suas identidades (por exemplo, data de nascimento, CEP, cargo, tipo sanguíneo); e (iii) atributos sensíveis, que se referem a condições específicas dos indivíduos (por exemplo, salário, exames médicos) (CAMENISCH; FISCHER-HÜBNER; RANNENBERG, 2011).

2.2.1

Técnicas de anonimização

Depois de identificar os atributos de acordo com a sua sensibilidade de divulgação (identi-ficadores, semi-identificadores e sensíveis), técnicas de anonimização podem ser aplicadas

(29)

para proteger a identidade dos indivíduos (OHM, 2009). Abaixo são listadas as principais técnicas de anonimização que foram utilizadas nos estudos de caso, no Capítulo 5.

Supressão: É a remoção completa do atributo, isto é, a exclusão da coluna corres-pondente aos dados a serem anonimizados. Geralmente, essa técnica é utilizada nos dados identificadores. Como mostrado na Figura 2.2, os campos Nome (Name), Data de Nasci-mento (Birth Date), Sexo (Sex) e CEP (ZIP Code) foram excluídos, enquanto os campos Raça (Race) e Queixa (Complaint) foram preservados no conjunto de dados de resultado.

Figura 2.2: Supressão de atributos da tabela (Fonte: Ohm (2009))

Generalização: A ideia de generalização é, em vez de excluir, manter apenas parte dos dados. A técnica de generalização pode ser uma boa opção quando se busca o equilí-brio entre utilidade e privacidade. Como exemplo, podemos citar o CEP, cujos números representam o escopo geográfico, ou seja, quanto mais à esquerda o número, maior o seu alcance. A figura 2.3 mostra como o CEP se dividiu no Brasil. O primeiro dígito, mais à esquerda, representa a região geográfica. O segundo descreve a sub-região. O terceiro e quarto dígitos representam, respectivamente, o setor e o subsetor. O quinto dígito designa o divisor do subsetor. Os últimos três números após o traço representam os identificadores de distribuição (CORREIOS, 2018).

Por exemplo, ao generalizar o CEP 13165-000 para 131 ** - ***, estamos aumentando a cobertura geográfica da região de Engenheiro Coelho / SP para o setor de Campinas e seu entorno. A figura 2.4 mostra diferentes regiões identificadas, considerando apenas a parte mais à esquerda do CEP, pelos dígitos 131, reduzindo a possibilidade de reidentificação do endereço (OHM, 2009).

(30)

Figura 2.3: Estrutura do CEP (CORREIOS, 2018)

Figura 2.4: CEP setor de Campinas (São Paulo/Brasil) e adjacências (CORREIOS, 2018) Agregação: Trata-se da disseminação de dados estatísticos resumidos, ou seja, dados não brutos, para liberar estatísticas agregadas, protegendo os indivíduos contra a reidenti-ficação. Um exemplo de aplicação da técnica de agregação é mostrado na Figura 2.5, onde os sujeitos do sexo (sex) masculino (Male) de respiração curta (Men Short Breath) foram pré-selecionados, alcançando o valor anonimizado de dois homens de respiração curta.

Durante o processo de agregação, as consultas não podem trazer registros exclusivos, pois isso poderia identificar um indivíduo. Nesta técnica podem ser utilizadas médias, so-mas, que são comuns, e podem ser utilizadas em bancos estatísticos. Por exemplo, dados do censo demográfico realizado pelo IBGE (Instituto Brasileiro de Geografia Estatística) geraram relatórios consolidados mostrando o perfil socioeconômico das regiões brasileiras, sem identificar os indivíduos (GEOGRAFIA E ESTATÍSTICA - IBGE, 2010).

(31)

Encontra-Figura 2.5: Tabela anonimizada por agregação (Adaptada de (OHM, 2009)) mos também, na literatura, outras técnicas (BRANCO JR; MACHADO; MONTEIRO, 2014):

• Criptografia: consiste em usar cifragem para ocultar os dados reais;

• Distúrbio: também conhecido como mascaramento, substitui os valores reais por dados fictícios;

• Substituição: nessa técnica, os dados são substituídos por outros que não estão relacionados aos dados originais;

• Embaralhamento: os itens são embaralhados aleatoriamente por dados semelhan-tes, mas da mesma tabela;

• Anulação: também conhecido como “truncamento”, nesta técnica os valores são substituídos por dados nulos.

2.2.2

Modelos de anonimização

Na busca por formatos e técnicas de anonimização mais adequadas ao uso dos dados, alguns modelos de privacidade foram desenvolvidos. Nesta seção serão apresentados os modelos mais relevantes, que foram encontrados na literatura, para o contexto desse trabalho: κ-anonymity, `-diversity, τ -closeness.

O modelo κ-anonymity é uma condição de anonimato que o conjunto de dados deve possuir após a anonimização (SAMARATI; SWEENEY, 1998), com o intuito de impos-sibilitar a reidentificação de indivíduos que integram os conjuntos de dados. Existem ferramentas que implementam essa condição de forma automatizada, tais como ARX

(32)

(PRASSER; KOHLMAYER, 2015). Para tanto, a informação de cada pessoa no con-junto de dados pós-anonimizados não pode ser distinguida em pelo menos k-1 indivíduos, cujas informações também aparecem nesse mesmo conjunto (SWEENEY, 2002). Obser-vando a Figura 2.6, não é possível reidentificar os dados anonimizados por κ-anonymity, quando uma busca na tabela de Identificação de indivíduos (Identification Data Base (Z)) for feita. Uma vez que o atributo que poderia ligar os dois registros foi generali-zado, cada registro na tabela anonimizada, passou a ter mais de uma possibilidade de correspondência.

Figura 2.6: Tabela anonimizada por κ-anonymity (EL EMAM; DANKAR, 2008) O modelo `-diversity foi proposto por Machanavajjahara et al. (2006) e é uma exten-são do modelo κ-anonymity. Essa extenexten-são consiste na redução das pequenas partes da representação de dados, protegendo o conjunto de dados contra a divulgação de atributos sensíveis predefinidos. Dessa forma, os valores dos atributos devem ser pelo menos `-diversificados dentro de cada classe de equivalência. O modelo `-diversity também implica `-anonimato, pois os dados devem ser `-anonimizados (similar ao modelo κ-anonymity), para posteriormente serem `-diversificados. Para cumprir a definição básica de `-diversity, um atributo sensível não deve possuir granularidade de valores intra-grupo maior que o

(33)

1 dividido por “`” (quantidade mínima de valores distintos dentro de cada classe de equi-valência). Os valores dos atributos sensíveis para cada registro não podem ser distintos (únicos), devendo respeitar a quantidade miníma de valores iguais determinados por `-diversity. É possível verificar na figura 2.7, essa propriedade onde o atributo Diagnóstico (Disease) possui no mínimo dois registros com valores de atributos iguais dentro do mesmo grupo de registros anonimizados por κ-anonymity. Dessa forma, o modelo `-diversity adiciona a promoção da diversidade intra-grupo, anonimizados por κ-anonymity, para valores dos atributos sensíveis no mecanismo de anonimização (MACHANAVAJJHALA et al., 2006).

Figura 2.7: Tabela anonimizada por `-diversity (SUMATHIE, 2016)

Na Figura 2.7 podemos verificar que o indivíduo procurado (Bob) está dentro da faixa generalizada por κ-anonymity. Quando observamos o atributo sensível, diagnóstico (Disease), não é possível inferir qual o diagnóstico (pneumonia ou dyspepsia) do indivíduo procurado, uma vez que a probabilidade é de 1/2 dentro do mesmo grupo de equivalência. O modelo τ -closeness faz com que as classes de equivalência monstradas em `-diversity não possam se destacar no conjunto de dados. Isso é feito através da distribuição do atributo sensível dentro de cada classe de equivalência, mantendo uma distância menor que τ -closeness para a distribuição dos valores no conjunto de dados original (N. LI; T. LI; V., 2007).

Conforme podemos verificar na Tabela 2.1, τ -closeness requer que a distribuição de um atributo sensível em qualquer classe de equivalência, definida por κ-anonymity, seja próxima da distribuição do atributo na tabela global (ou seja, a distância entre as duas distribuições não deve ser maior do que um limite “T”). Sendo assim, a distribuição de

(34)

Tabela 2.1: Tabela anonimizada por τ -closeness (N. LI; T. LI; V., 2007) ZIP CODE AGE DISEASE COUNT

1 2 476** 476** 2* 2* Cancer Flu 300 300 3 4 479** 479** 4* 4* Cancer Flu 200 1800 5 6 476** 476** 3* 3* Cancer Flu 200 200

atributos sensíveis (Disease) dentro de cada grupo de semi-identificadores deve estar “pró-xima” de sua distribuição em todo o banco de dados original.

Ferramentas Para Anonimização

Nesta subseção foram avaliadas quatro ferramentas Open Source (gratuitas), utilizadas para anonimização de dados em tabelas. Esta avaliação foi realizada utilizando as docu-mentações oficiais de cada ferramenta, sob o ponto de vista dos recursos documentados em seus manuais de usuário. Para a comparação, foram considerados apenas os recursos disponibilizados e descritos em suas documentações oficiais.

A ferramenta SDCMICRO (TEMPL; KOWARIK; MEINDL, 2015) é um pacote de código aberto gratuito compilado em linguagem R. Tem como objetivo a geração de dados de domínio público direcionada a pesquisadores (por exemplo, dados do censo demográ-fico). Este pacote pode ser usado para a geração de conjuntos de micro dados (o menor nível de desagregação de dados recolhidos por pesquisas, avaliações e exames realizados) confidenciais anônimos, ou seja, para a criação de arquivos públicos e de uso científico. O Pacote SDCMICRO inclui os métodos populares de risco e perturbação de divulgação, tais como recodificação global, supressão local, pós-aleatorização, micro agregação, adi-ção de ruído correlacionado, embaralhamento, entre outros. A ferramenta também possui uma interface gráfica, chamada SDCMICROGUI, para utilização dos usuários. Na mesma linha de produtos, com pacote disponível para linguagem R, a ferramenta SDCTABLE (MEINDL, 2011) possui código aberto e gratuito para proteger dados tabulares, forne-cendo métodos para o controle da divulgação estatística, tais como, supressão de células primárias e secundárias.

Similarmente à família SDC, o software Argus tem o µ-ARGUS (HUNDEPOOL; VAN DE WETERING et al., 2005), que é um pacote de software para o controle de divulgação

(35)

de microdados e o τ -ARGUS (HUNDEPOOL; WETERING et al., 2004) para dados ta-bulares. Os pacotes foram desenvolvidos usando a linguagem Visual C++ e é compatível com o sistema operacional Windows a partir da versão 2000 ou superior. µ-ARGUS imple-menta técnicas de anonimização como recodificação global (agrupamento de categorias), supressão local, método pós-padronização (PRAM), adição de ruído e micro agregação. Também implementa uma metodologia para estimativa de risco individual utilizando o peso da amostra. τ -ARGUS também lida com o problema de supressão de células secun-dárias (HUNDEPOOL, 2004), assim como a SDCTABLE e SDCMICRO.

Outra importante ferramenta de anonimização para dados estruturados, é a ARX (PRASSER; KOHLMAYER, 2015), que suporta métodos de controle de divulgação de dados estáticos, fornecendo: i) técnicas de anonimização, tais como generalização, su-pressão e microagregação; ii) modelos de privacidade, tais como κ-anonymity, `-diversity, τ -closeness e δ-presence; iii) modelos para análise de riscos de reidentificação; iv) métodos para avaliação de utilidade de dados. A ferramenta ARX é capaz de anonimizar dados em big data, pois suporta o uso de milhões de registros, oferecendo uma interface gráfica abrangente para o usuário, tutoriais de ajuda e visualizações que orientam os usuários em diferentes aspectos durante o processo de anonimização.

A Tabela 2.2 mostra um resumo das características de cada ferramenta analisada, como por exemplo Licenciamento, linguagem de programação, entre outros.

Tabela 2.2: Características das ferramentas de anonimização

Ferrametas Licenciamento Liguagem GUI Dependência de softwares API SDCTABLE GPL (>= 2) R SIM Software R and GTK+ package SIM T-ARGUS GPL (>= 2) Java SIM Java Runtime Environment SIM SDCMICRO GPL (>= 2) R SIM Software R and GTK+ package SIM

ARX GPL (>= 2) Java SIM Java Runtime Environment SIM

A Tabela 2.3, traz a comparação dos recursos disponíveis, tais como implementação do modelo κ-anonymity, análise de riscos e técnicas de perturbação, supressão ou gene-ralização. Os itens marcados com “X” representam os recursos disponíveis. A Tabela 2.3 mostra que a ARX possui a maior quantidade de recursos disponíveis para uso. As fer-ramentas SDCTABLE (TEMPL, 2018) e SDCMICRO (TEMPL; MEIND; KOWARIK, 2018) dependem da linguagem R, podendo criar dificuldades para instalação e utilização. A ferramenta T-ARGUS (ARGUS, 2015) não possui dependências, porém a quantidade

(36)

Tabela 2.3: Análise de recursos disponíveis

Softwares ARX SDCMICRO T-ARGUS SDCTABLE

κ-anonymity x x -

-`-diversity x x -

-τ -closeness x - -

-κ-map x - -

-δ-presence x - -

-Risco de média Estrita x - -

-Singularidade de População x - -

-Singularidade da Amostra x - -

-δ-disclosure privacy x x -

-Adicão de Ruído x x -

-Cálculo da Utilidade dos Dados x x -

-Análise de riscos x x x -Microagregação x x - x Quase-identificadores x x - -ghmitter (hypercube) - - x x Generalização x x - -Perturbação x x x -Supressão x x x x

Seleção de atributos sensíveis x x x x

de recursos é pequena, quando comparada com a ferramenta ARX (ARX, 2018). Por esses motivos a ferramenta ARX foi escolhida para desenvolvimento do estudo de caso, detalhados nos capítulos 4 e 5.

2.2.3

Risco de reidentificação

Um dos principais pontos de atenção na tarefa de anonimização é estimar o risco de reidentificação para cada indivíduo. A ideia principal é calcular a frequência com que os atributos semi-identificadores aparecem no conjunto anonimizado e demais conjuntos passíveis de comparação, como por exemplo os registros públicos de cidadão. A contagem da ocorrência dos atributos semi-identificadores atrelados aos conceitos de singularidade

1, κ-anonymity, e/ou demais modelos implementados, geram a estimativa do risco de

reidentificação. Mais especificamente, o risco de reidentificação é dado pelo cálculo da probabilidade de reidentificação, dada por: R=1/(Np). Onde, “R” representa a

probabili-1Singularidade é uma medida comumente usada para cálculo do risco de reidentificação quando

ana-lisado sob a perspectiva de um ataque. Refere-se às características que distinguem um indivíduo dos demais dentro de um conjunto de dados.

(37)

dade do indivíduo ser reidentificado e “Np” representa o tamanho da classe de equivalência correspondente à pesquisa (ou seja, quantidade de registros compatíveis).

De acordo com o guia para Anonimização de dados pessoais de saúde, de Khaled el Emam (EL EMAM, 2013), os cenários que norteiam a estimativa de risco são: i) o cenário do promotor, ii) o cenário do jornalista e iii) o cenário do profissional de marketing. No modelo do promotor presume-se que o invasor sabe que os dados sobre o indivíduo, alvo do ataque, estão contidos no conjunto de dados. No modelo de jornalista, esse conhecimento sobre o indivíduo alvo não é assumido. No modelo de marketing supõe-se que o atacante não está interessado em reidentificar um indivíduo específico, mas visa atacar um número maior de indivíduos. Portanto, um ataque só pode ser considerado bem-sucedido se uma grande parte dos registros puder ser reidentificada.

Nesta dissertação foram utilizados os modelos do promotor e jornalista, para os o estudo de caso inicial (utilizando os dados do transporte público de Curitiba). Para o estudo de caso estendido que utilizaram o repositório de dados para aprendizado de máquina do UCI, utilizamos apenas o modelo do promotor que é o papel que detém maior conhecimento sobre os dados. O modelo do promotor, portanto, foi escolhido para a extensão do estudo de caso, pois configura-se no pior cenário do ponto de vista de risco a privacidade, sendo possível a simulação comparando os dados anonimizados com os dados originais.

2.3

Mineração de dados

Mineração de dados é o processo de análise de conjuntos de dados, que são geralmente apresentados em grandes volumes (big data), com intuito de encontrar relacionamentos desconhecidos e compilar os dados de maneiras novas, compreensíveis e úteis ao proprietá-rio desses dados (HAND; MANNILA; SMYTH, 2001). As saídas podem ser, por exemplo, regras, clusters, estruturas de árvore, gráficos, equações, padrões, entre outras. Um dos objetivos da mineração de dados, é alavancar o conhecimento extraído a partir dos dados, e com isso, alcançar o aumento de vendas e consequentemente dos lucros. Também pode ser utilizado em outras áreas, como engenharia e medicina, ajudando, por exemplo, a identificar regiões de epidemias.

(38)

O processo de descobrir o conhecimento por meio dos dados, conhecido como KDD -Knowledge Discovery in Databases, está subdivido nas etapas de: a) seleção de dados; b) pré-processamento; c) transformação; d) mineração de dados; e) Interpretação e avaliação. O objetivo de uso do processo de mineração de dados executado nesta dissertação foi para determinar o impacto da anonimização nos algoritmos de classificação utilizados em plataformas de análise de dados.

2.3.1

Classificação de dados

A Classificação é uma função da mineração de dados, aplicada durante o aprendizado de máquina supervisionado, que seleciona atributos em um conjunto de dados para segmentar categorias ou classes. O objetivo é prever com precisão a classe de destino testada para cada registro existente no conjunto de dados (ORACLE, 2008). Por exemplo, um modelo de classificação poderia ser usado para identificar candidatos a empréstimos com riscos de crédito baixo, médio ou alto. Outro exemplo é um sistema de gerenciamento de e-mail que pode tentar classificar um e-mail como legítimo ou spam.

A precisão combinada com a exatidão da classificação é conhecida como acurácia (do inglês accuracy), que indica o número de previsões corretas entre todas as previsões feitas pelo classificador. O cálculo da acurácia pode ser verificado através de uma matriz de confusão. Nesta matriz são identificados os erros e exatidão na predição das classes. Posteriormente, o número de acertos é dividido pelo número de registros testados, dando origem à acurácia. A avaliação da acurácia nos ajuda a entender melhor a utilidade dos dados após a anonimização.

O desempenho dos classificadores é medido pelo tempo de execução do modelo de classificação. Avaliar o desempenho nos ajuda a entender melhor se há custos introduzidos pela técnica de anonimização utilizada. Em nosso estudo de caso, apresentado no Capítulo 5, utilizamos os classificadores Zero R, K-NN (K-Nearest Neighbour ) e SDGText (SVM) (SAYAD, 2017) (WEKA, 2008). O classificador Zero R constrói sua tabela de previsão pelo cálculo da frequência para a classe alvo e seleciona os valores mais frequentes. Esse classificador é amplamente usado para parametrizar e guiar os testes de desempenho de outros classificadores. O Classificador K-NN é um exemplo de aprendizagem preguiçosa (isto é, mais onerosa), pois determina a classificação por meio de similaridade com os registros vizinhos. Essa semelhança é medida através de funções de distância, tais como

(39)

a distância euclidiana, Manhattan e Minkowski (SAYAD, 2017) (KAMBER; HAN; PEI, 2012). Após a verificação da distância, o classificador executa uma espécie de votação, para determinar a classe com a maior similaridade. O classificador Naive Bayes é muito útil para um conjunto de dados muito grande porque é um classificador estatístico capaz de prever a probabilidade de uma amostra pertencer a uma determinada classe. Os classificadores de SVM transformam os dados em um espaço maior e, nessa nova dimensão, ele encontra um hiperplano que permite a separação de amostras entre classes (SAYAD, 2017) (KAMBER; HAN; PEI, 2012).

2.3.2

Utilidade dos dados

Medir a utilidade dos dados é uma tarefa difícil. Para se determinar a utilidade, é ne-cessário comparar o conjunto de dados anonimizados com o conjunto de dados original. Essa avaliação da utilidade deve ser realizada, pois a depender da técnica ou processo de anonimização utilizado, os resultados da mineração de dados podem induzir resultados parciais ou enganosos. Para melhor discussão vamos dividir em duas formas: utilidade qualitativa e quantitativa. Na forma qualitativa é avaliada a qualidade do processo de mineração de dados face à melhora ou piora na precisão da classificação ou predição (KOHLMAYER; PRASSER; KUHN, 2015). A forma quantitativa consiste na verificação da porcentagem de dados removidos de um conjunto de dados durante o processo de ano-nimização, utilizando-se a métrica de perda de informação mostrada por (KOHLMAYER; PRASSER; KUHN, 2015).

De acordo com Templ et al. (2017), existem dois tipos diferentes de abordagens complementares para avaliar a perda de informação: (i) medição direta de distâncias / frequências entre os dados originais e dados perturbados, e (ii) comparação de estatísticas computadas nos dados originais e perturbados. É importante ressaltar que a perda da informação não necessariamente implica na redução da qualidade da utilidade dos dados para tarefa de mineração. Nos estudos de caso descritos no Capítulo 5 os resultados mostraram que, apesar do crescimento da perda de informação, a qualidade da precisão dos classificadores, em alguns casos, foi melhorada durante a tarefa de mineração.

(40)

Capítulo 3

Trabalhos Relacionados

Com a finalidade de compreender melhor os diversos aspectos relacionados, neste capítulo são apresentados os trabalhos relacionados à proposta desta dissertação. Para melhor organização, foram criadas as seções: “avaliação do impacto da anonimização”; “avaliação do risco de reidentificação” e “frameworks para preservação da privacidade”.

Os artigos selecionados para compor a revisão bibliográfica foram extraídos das ba-ses eletrônicas da ACM (Association for Computing Machinery) Digital Library, IEEE (Institute of Electrical and Electronics Engineers) Xplore Digital Library e ScienceDirect (Elsevier) pois são consideradas, pela comunidade científica, as mais relevantes. Outros tipos de materiais online também serviram de referencial bibliográfico, tais como data sheet de ferramentas e documentos públicos resultantes de pesquisas realizadas no âmbito do projeto EUBra-BIGSEA.

3.1

Avaliação do impacto da anonimização

De acordo com o trabalho de Inan et al. (2009), é espantoso a existência de um nú-mero pequeno de pesquisas que visam a investigação do desempenho dos algoritmos de mineração de dados em dados anonimizados. O estudo de Buratović et al. (2012), cuja finalidade era determinar se é possível usar dados anonimizados para fins de pesquisa, ve-rificou o efeito da anonimização em comparação ao conjunto de dados original, validando os resultados da mineração do conjunto de dados alterados (anonimizados). Os conjuntos de dados, contendo a informação de alunos, foram anonimizados usando κ-anonymity e a mineração dos dados foi extraída com a ferramenta WEKA (Waikato Environment for

Referências

Documentos relacionados

Possui graduação em Medicina pela Faculdade de Medicina de Jundiaí (1989), Residência Médica em Medicina Geral e Comunitária pela Faculdade de Medicina de Jundiaí (1991) e em

Por isso, respondendo a Heurgon acerca de sua tese, Le Goff sinalizou que em função de suas leituras, havia conquistado certa familiaridade com o conjunto da Idade Média,

4 RESULTADOS E DISCUSSÃO 4.1 Caracterização da cobertura florestal e da biodiversidade vegetal no entorno dos cultivos de tomate na região de Apiaí-SP a Módulos

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Em relação aos conhecimentos de saúde oral constatou-se que pais/encarregados de educação e crianças estão informados sobre a presença, ou não, de dentes cariados, bem como,

O presente experimento teve como objetivo avaliar o desenvolvimento até os vinte e oito meses de idade e o desempenho reprodutivo no primeiro período de acasalamento de fêmeas

As seguintes características foram avaliadas: período, em dias, da semeadura à emergência das plantas em 75% das covas; dias da semeadura à abertura da primeira flor; dias da

Do ponto de vista técnico, conseguiu convencer o corpo médico presente ao encontro que a doença seria transmissível, como comprova o primeiro item da resolução final do encontro: