Frameworks para preservação da privacidade

Alguns frameworks para preservação de privacidade em plataformas de análise de dados sob a infraestrutura de big data podem ser encontrados na literatura. Drogkaris e Gritzalis (2015) propuseram uma metodologia de preservação da privacidade para ser incorporada em frameworks de governo eletrônico. O framework proposto fornece um nível adicional de anonimização, usando técnicas de hashing para transformar identificadores pessoais em dados digitais. O framework permite distinguir os dados dos indivíduos, mas não podem ser ligado à sua identidade no mundo real. No entanto, a solução proposta é específica para plataformas governamentais e apenas anonimiza as informações de identificação pessoal. Além disso, é guiada por políticas de anonimização, exigindo, portanto, o conhecimento avançado de especialistas em privacidade.

Al-Zobbi et al. (2017) propuseram um framework para anonimização de big data im- plementado para análise de dados que trabalha com operações distribuídas e paralelas. O framework fornece um método de autorização ao aplicar a anonimização em um controle de acesso refinado. O objetivo é atribuir funções aos usuários e anonimizar os dados de acordo com as regras de controle de acesso (por exemplo, os cirurgiões não precisam conhecer a situação financeira dos pacientes, portanto, o proprietário dos dados prefere anonimizar ou mesmo suprimir dados de status financeiro e anonimizar ligeiramente os dados do status de saúde). No entanto, as políticas de anonimização não foram conside- radas, bem como o trade-off entre utilidade de dados e anonimização.

O framework apresentado no trabalho de Basso et al. (2016) aborda desafios de anonimização em um cenário típico de big data. Não era foco do trabalho a análise e implementação de componentes. O framework proposto no Capítulo 5 implementa melhorias no trabalho de Basso et al. (2016). Essas melhorias podem ser resumidas em três aspectos principais: (i) alguns componentes são integrados à plataforma de análise de big data, em vez de apenas interagir com a plataforma; (ii) as políticas de anonimi- zação orientam os processos de anonimização de todos os componentes (em Basso et al. (2016) eles orientaram apenas a anonimização no processo ETL); (iii) o componente Uti-

lidade de dados / Risco de identificação foi movido para operar na etapa final da análise. Essa mudança foi feita porque aumentar o nível de anonimização já no processo de ETL reduziria a utilidade dos dados que seriam manipulados pela plataforma. Além disso, essa mudança tornou os recursos desse componente suficientes para substituir dois outros componentes definidos em Basso et al. (2016) (chamados anonimização de consultas e controle de divulgação estática). Ambos os componentes não são mais necessários porque o componente Utilitário de Dados/Risco de reidentificação reduz o risco de divulgação de dados (reidentificação), mesmo quando o foco são consultas. O framework proposto é detalhado no Capítulo 5. A Tabela 3.1 apresenta um resumo dos trabalhos relacionados em comparação à esta dissertação.

Tabela 3.1: Resumo comparativo dos trabalhos relacionados

Contribuições Trabalhos

Seção: Avaliação do impacto da anonimização Esta Dissertação Inan et al. Buratovi’c et al. Brickell e Shmatikov Paranthaman e Victoire Nyati e Bhatnagar Comparação dados de entrada e saída x - - - - - Técnicas de anonimização tradicionais x x x x x x Modelo K-anonimity x - - - - - Equilíbrio entre Privacidade e Utilidade x - - - - x Naive Bayes x - - - x - Zero R x - - - - - SVM x - - - - - K-NN x - - - - -

Semântica dos dados - - - x - -

Metodologia própria - - - x - -

Uso de Metodologia

Consolidada x - - - - -

Adição de Informações

de agregação nos dados brutos - x - - - -

Algoritmos de fluxo de dados - - - x

Seção: Avaliação do Risco de Reidentificação Esta Dissertação Dankar et al. El Emam et al. Lee e Lee Benitez e Malin Precisão estimada por singularidade - x - - - Baseado na HIPAA x - - - x Registros médicos - - x - - Baseado em Semi-identificadores x - - x - Cenários: Promotor, Jornalista e Marketing x - - - -

Seção: Frameworks para preservação da privacidade Esta Dissertação Drogkaris e Gritzalis Al-Zobbi et al. Basso et al. Governo eletrônico e uso de Hashing x x - x Big Data e Paralelização de processamento x - x -

Políticas guiadas por leis

em todos os processos x - - x

Inclui o cálculo

do risco de reidentificação x - - -

Inclui o cálculo

da utilidade dos dados x - - -

Capítulo 4

Abordagem Proposta

Neste capítulo serão utilizados os conceitos apresentados anteriormente, tais como modelos e técnicas de anonimização, cálculo do risco, cálculo de utilidade e técnicas de reidenti- ficação de indivíduos. A seção 4.1 apresenta a abordagem do processo de anonimização para plataformas de análise de dados. A seção 4.2 apresenta o detalhamento dos processos de anonimização propostos e implementados no projeto EUBra-BIGSEA. Ainda na seção 4.2.1, são detalhados os componentes de anonimização menos restritivo (Anonimizações 1.1 e 1.2) e o funcionamento do componente que implementa o modelo κ-anonymity, o risco de reidentificação e a utilidade dos dados (Anonimização 2). A seção 4.2.2 refere-se a Anonimização 2, descrevendo o funcionamento das hierarquias utilizadas para genera- lizar atributos, que foram implementadas para balancear o trade-off entre privacidade e utilidade dos dados. Na seção 4.3 é apresentada a extensão da política de anonimização para o uso do risco de reidentificação aceito. Na seção 4.4 são apresentados maiores deta- lhes dos componentes para abordagem para privacidade proposta nesta dissertação. Na seção 4.5 são apresentados os cenários e métodos utilizados para injeção dos ataques de reidentificação.

4.1 Abordagem de anonimização para plataformas de

análise de dados

Nesta seção é apresentada a abordagem de anonimização incluindo os componentes para execução das técnicas e modelos de anonimização. Os componentes se integram na abordagem em dois pontos, nominados como PRIVAaaS (Privacy as a Service - Privacidade

como um serviço, com a finalidade de executar a aplicação das técnicas de anonimização no processo de ETL (fase menos restritiva) e na saída dos dados das plataformas de aná- lise de dados, implementando o modelo κ-anonymity, o cálculo do risco de reidentificação e da perda de informação, para os dados de saída das plataformas de análise de dados.

A Figura 4.1 mostra o abordagem de anonimização para um cenário de big data e análise de dados. As fontes de dados externas representam bancos de dados relacionais e não relacionais, ou mesmo fluxos de dados. Esses dados são manipulados pelos módulos de ETL (Extrair, Transformar, Carregar), que representam o processo de integrar os dados de várias origens e reuni-los em um banco de dados de destino. Por sua vez, as fontes de dados representam o banco de dados consolidado. As fontes de dados derivadas representam bancos de dados preditivos resultantes do processo de análise de dados e mineração de dados. As fontes de dados consolidadas no contexto de big data geralmente são manipuladas por algoritmos de mineração e análise de dados, cujo objetivo é analisar grandes conjuntos de dados para descobrir informações úteis.

Os dois componentes de anonimização (PRIVAaaS - Anonimização e PRIVAaaS - Risco de Reidentificação) são guiados por uma política de anonimização. Basicamente, essa política especifica os campos relacionados a informações pessoalmente identificáveis e a técnica de anonimização a ser aplicada para cada campo. Sua definição deve ser baseada nos princípios e leis de privacidade, ou seja, regulamentos e diretrizes existentes para anonimização de dados (como por exemplo: GDPR - Regulamento geral de proteção de dados da União Européia, PIPEDA - Lei de Proteção de Informações Pessoais e Do- cumentos Eletrônicos do Canadá, HIPAA - Lei de Portabilidade e Responsabilidade do Seguro de Saúde dos Estados Unidos, PCI-DSS - Padrão internacional de segurança de dados do setor de pagamento com cartões e LGPD - Lei Geral de Proteção de Dados Pes- soais do Brasil) e construída com base em seus pontos fortes (OLIVEIRA SILVA; BASSO; OLIVEIRA MORAES, 2017). Normalmente ela deve ser fornecida pelo proprietário das fontes de dados.

Os componentes de anonimização são introduzidos nas camadas que representam os dois limites que os dados devem cruzar, respectivamente: (i) o processo ETL; e (ii) antes que os dados deixem a plataforma de análise de dados, ou seja, antes que se tornem públicos para visualização por usuários externos à plataforma.

Os componentes propostos nesta dissertação também são contribuições do projeto EUBRA-BIGSEA e foram incluídas nos entregáveis do projeto. PRIVAaaS é um conjunto de bibliotecas que permite controlar e reduzir o vazamento de dados no contexto de processamento de big data e, consequentemente, proteger informações sensíveis que são processadas por algoritmos de análise de dados. Os códigos fontes dos serviços, propostos nesta dissertação, estão disponíveis no Github1_.

Figura 4.1: Abordagem para Anonimização e cálculo do Risco de reidentificação para Análise de Dados em Big Data

Ainda na Figura 4.1, a detecção de violação de privacidade representa um componente que, similarmente aos atuais sistemas de detecção de intrusão (IDS), monitora, coleta e avalia eventos que indicam possível violação de privacidade, no momento da divulgação de dados. O objetivo é detectar e evitar vazamentos de dados e ataques de privacidade. Embora esse componente faça parte da estrutura e possa ajudar a aumentar a proteção da privacidade em plataformas de análise de dados, seu foco não está na anonimização e não será abordado neste trabalho.

No documento Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas (páginas 44-49)