• Nenhum resultado encontrado

Nesta seção é detalhada a abordagem de anonimização proposta, que foi também im- plementada no projeto EUBra-BIGSEA (EUBRA-BIGSEA, 2017a). No projeto, foram definidas três fases de anonimização, onde cada fase é regulamentada por uma política de anonimização específica, contendo as respectivas diretrizes necessárias para que os dados sejam anonimizados, conforme a Figura 4.2.

Figura 4.2: Arquitetura de integração do PRIVAaaS no Projeto EUBra- BIGSEA(EUBRA-BIGSEA, 2017a)

A fase de Anonimização 1.1 é aplicada nos dados brutos fornecidos como entrada. Nessa anonimização executa-se um processo de conjunção com base nas políticas forneci- das: isto é, aplica-se uma operação “AND” , anonimizando apenas os campos nos dados brutos que possuam um atributo correspondente em todas as políticas fornecidas. Nesta fase aplicam-se as políticas menos restritivas, maximizando a utilidade dos dados.

A Anonimização 1.2 é aplicada nos dados dos resultados intermediários, que podem ser divulgados durante a análise dos algoritmos. Executa-se um processo de disjunção guiado pelas políticas de anonimização, ou seja, aplica-se uma operação “OR” , anonimizando todos os campos dos conjuntos de dados que foram citados nas políticas fornecidas. Nesta fase aplicam-se políticas mais restritivas, o que resulta na queda da utilidade dos dados numa fase em que os resultados da mineração já foram obtidos.

Na Anonimização 2, trata-se o risco de reidentificação dos dados finais que têm como destino a saída de resultados do ecossistema do projeto EUBra-BIGSEA destinado aos usuários externos. Nessa fase, o risco de reidentificação do conjunto de dados é calculado

e modelos de anonimização (κ-anonymity, `-diversity, entre outros) são aplicados para reduzir esse risco.

As fases de anonimização utilizadas na abordagem proposta nesta dissertação são melhores detalhadas nas seções a seguir.

4.2.1

Anonimização 1 - Políticas e ferramenta de anonimização

No projeto EUBra-BIGSEA, para a Anonimização 1.1 e Anonimização 1.2, várias técnicas e algoritmos foram implementados na biblioteca PRIVAaaS, visando proteger a privaci- dade dos dados de indivíduos que são utilizados nas soluções de análise de dados. Estas técnicas foram descritas no Capítulo 2 (Fundamentação teórica) e incluem as técnicas de: Generalização, Supressão, Criptografia e Perturbação/Mascaramento. Do ponto de vista da implementação, as duas fases de anonimização (1.1 e 1.2) são semelhantes, já que a mesma ferramenta é usada em ambos os casos aplicando-se o processo de anonimização com base no arquivo de políticas de anonimização informado como entrada do processo. Para a Anonimização 1 e 2, foi integrado ao PRIVAaaS o componente de anonimização descrito no trabalho de Ferreira et al. (FERREIRA et al., 2017). Portanto, a política deve fornecer os seguintes atributos:

• FIELD_NAME: nome do campo dos dados que devem ser anonimizados; • TIPO: técnica de anonimização que deve ser aplicada;

• DETALHE: especifica informações adicionais exigidas pela técnica de anonimização, como por exemplo comando para encriptação de atributos, generalização e substi- tuição de valores.

Mais informações sobre o campo Detalhe são fornecidos na documentação do PRIVAaaS

2. O trecho a seguir mostra um exemplo de um arquivo de política (no formato JSON) que

exige que a técnica de supressão (SUP) seja aplicada no campo “name” e que o atributo seja substituido por “*” :

{

“FIELD_NAME” : “NAME”, “TYPE” : “SUP”,

“DETALHE” : “*” }

O serviço PRIVAaaS, utilizado para a Anonimização 1.1 e 1.2, usa dois arquivos JSON como entrada: um com os dados a serem anonimizados (input.json) e outro com a política de anonimização (policy.json). O resultado do processo é a versão anonimizada dos dados de entrada (input_anonymized.json), gravando os dados de resultado na mesma pasta que os dados de entrada foram disponibilizados. A execução do serviço de anonimização pode ser feita por linha de comando conforme segue:

java -jar anonymization.jar input.json policy.json

Figura 4.3: Exemplo de uso da anonimização 1.1 e 1.2 utilizando a biblioteca PRIVA- aaS(EUBRA-BIGSEA, 2017a)

A Figura 4.3 mostra um exemplo do uso da Anonimização 1, executada no âmbito do projeto EUBra-BIGSEA para dados do transporte público da cidade de Curitiba. No exemplo da Figura 4.3 é aplicada a anonimização sobre o número do cartão eletrônico utilizado pelos munícipes de Curitiba. No caso apresentado, o campo “NUMEROCAR- TAO” é anonimizado usando a técnica de criptografia (função de resumo criptográfico hash). O arquivo de entrada (input file), é apresentado no canto superior esquerdo. Logo ao lado pode-se verificar o processamento executado pelo componente de anonimização provido pelo PRIVAaaS. Ainda na Figura 4.3, no canto inferior esquerdo observa-se o arquivo de dados resultante do processo de anonimização, sendo que ao lado é apresen-

tado um exemplo do arquivo da política de anonimização, necessária para este processo. A Anonimização 1, executada no processo de ETL, utilizou uma extensão da política de anonimização proposta em Matsunaga et al. (2017). A política adotada será melhor detalhada no estudo de caso 5.3.

A fase de Anonimização 1.2, descrita na Figura 4.2, não foi utilizada no estudo de caso realizado nesta dissertação (capítulo 5 estudo de caso), porque os dados intermediários eram todos agregados (média, soma, etc.). A fase de Anonimização 2 é descrita na seção 4.2.2.

4.2.2

Anonimização 2 - Anonimização com inclusão do risco de

reidentificação

As identidades das pessoas podem ser recuperadas quando os conjuntos de dados pro- duzidos pelos algoritmos de análise e mineração são atacados, conforme discutido na fundamentação teórica - Capítulo 2. Assim, o componente que avalia o risco de reidentifi- cação (também disponibilizado na plataforma PRIVAaaS para a Anonimização 2), verifica os limites de risco aceitável que são pré-definidos juntamente com as políticas. Isso faz com que o nível de anonimização seja aprofundado para os dados oriundos da análise e mineração de dados, caso o risco esteja acima do limite imposto. Isso significa que, se o limite imposto não for atendido, o processo de anonimização é reaplicado e o novo risco é recalculado. O objetivo é reduzir o risco de reidentificação até que o valor calculado se iguale ou fique abaixo do limite pré-definido. A Anonimização 2 é aplicada no momento anterior à exportação dos dados resultantes da análise de big data, tornando-os públicos. Este componente explora as funcionalidades da ferramenta ARX (ARX, 2018), que calcula o risco de reidentificação considerando os atributos semi-identificadores existentes nos dados resultantes do processo de mineração. Para o controle do nível de anonimização considerando o risco de reidentificação foi utilizado o modelo κ-anonymity, sendo que o va- lor de κ é aumentado progressivamente até satisfazer a condição do risco aceitável. Tanto o limite de risco aceitável quanto a classificação dos campos em que deverá ser aplicado o processo de anonimização são especificados no arquivo de políticas de anonimização que foi estendido (ver 4.3 para ser utilizado em conjunto com a ferramenta ARX, seguindo os mesmos critérios da política de anonimização anterior, definida no trabalho de Ferreira et al (FERREIRA et al., 2017) e utilizada nas etapas de anonimização 1.1 e 1.2. Os

atributos devem ser classificados como sensíveis, semi-identificadores, identificadores ou insensíveis. As subseções a seguir especificam com maior detalhes a extensão da política de anonimização e fornecem exemplos de uso.

O processo de anonimização 2 se mostrou eficiente considerando o limite de risco de reidentificação que o provedor da amostra de dados configurou como sendo aceitável para o contexto em que se insere a amostra. Além disso, não houve impacto no processo de análise de dados pois o processo é executado no momento exatamente anterior a publicação do resultado da pesquisa aos usuários externos às plataformas de análise de dados.