Avaliação da injeção dos ataques de reidentificação para os dados

5.4 Segunda etapa do estudo de caso: Integração com a plataforma Ophidia

5.4.2 Avaliação da injeção dos ataques de reidentificação para os dados

dados de saída da plataforma Ophidia

Para avaliação da efetividade do resultado da anonimização executada sobre os dados de saída do Ophidia, foram executados alguns experimentos baseados em ataques de ligação

(linkage attack ). Nestes tipos de ataques, o atacante utiliza algumas informações auxilia- res sobre um individuo específico podendo determinar qual registro divulgado corresponde ao indivíduo procurado (MERENER, 2012). Por exemplo, um atacante pode facilmente usar uma lista de eleitores de um município para fazer uma espécie de referência cruzada. Para melhor entendimento, vamos tratar aqui os dados integrados do transporte de Cu- ritiba em dois conjuntos de dados. O primeiro conjunto de dados, registros públicos dos cidadãos, é formado apenas pelos usuários fictícios. O segundo conjunto de dados traz os dados oriundos da saída do Ophidia, que contém os dados anonimizados referentes à data de nascimento (birthdate) e gênero (gender ).

Os ataques foram executados a partir de duas perspectivas: i) selecionar um cida- dão conhecido a partir da amostra de cidadãos (Citizens Sample) e procurar por ele no conjunto de dados anonimizado; ii) selecionar um registro anonimizado e procurá-lo na amostra de dados públicos de cidadãos. O objetivo de ambas as perspectivas é justa- mente tentar identificar registros únicos e, consequentemente, conseguir a sua identidade (ou seja, desfazer a anonimização do conjunto de dados). A amostra de dados públicos possui 250 mil registros e, por sua vez, a amostra anonimizada resultante da plataforma Ophidia tinha 3.096 registros. Os experimentos foram executados para cada registro exis- tente no conjunto de dados, totalizando mais de 253 mil ataques de reidentificação. A quantidade de comparações executadas pelos ataques foi em torno de 770 milhões, resultado da busca entre os dois conjunto de dados (registros públicos versus amostra de dados do Ophidia). As Tabelas 5.3 e 5.4 mostram os resultados obtidos para os ataques e apresentam o cálculo da probabilidade de reidentificação. Em ambas as tabelas a coluna Combinações Possíveis representa o número de possibilidades que um registro pode ser combinado com informações adicionais visando a reidentificação. A coluna Número de Registros representa a quantidade de registros da tabela que retornaram com o valor de combinações possíveis.

A Tabela 5.3, mostra os resultados dos ataques executados usando a primeira perspectiva.

Na primeira perspectiva, os ataques simularam o cenário em que o atacante procura por indivíduos específicos e que possui informações adicionais respeito dos indivíduos procurados (ataque do promotor), o que contribui com a sua reidentificação quando com- parados com os dados anonimizados. A Tabela 5.3 mostra os resultados para esse primeiro

Tabela 5.3: Resultados para ataques de ligação na tabela anonimizada Combinações Possíveis Número de Registros Probabilidade de Reidentificação

1460 6615 0.0685%

1085 7273 0.0921%

167 89104 0.5988%

130 95173 0.7690%

0 51835 0%

cenário. Observa-se que, para este cenário de ataque, o menor valor para combinações possíveis foi igual a zero, ou seja, para 51.835 registros públicos não foram encontradas combinações possíveis, logo a probabilidade de reidentificação é igual a 0%. Isto significa que não existe risco de reidentificação para esses registros. O segundo menor valor de combinações possíveis foi de 130. Isto significa que a probabilidade de reidentificação, para 95.173 desses registros do conjunto de dados é aproximadamente 0,769% (1 / 130), que representam o maior risco de reidentificação para este cenário. Os registros com a maior quantidade de combinações possíveis e, portanto, com o menor risco, atingiu 1.460 registros com uma probabilidade de reidentificação de aproximadamente 0,0685%.

Figura 5.19: Probabilidade de reidentificação - Primeira perspectiva de ataques

Para melhor entender os resultados, os percentis (P0 a P99) foram calculados. Neste caso, observamos 3 partições de probabilidades. A partir do gráfico na Figura 5.19, podemos observar que mais de 60% das probabilidades calculadas são menores que 0,005989 apresentados na Figura 5.19. Calculando o desvio padrão para a amostra obtém-se um desvio igual a 0,003042. Entretanto, para este cenário o maior risco é pouco mais de 1% se considerar a maior probabilidade e o desvio padrão. Ainda assim, o valor obtido é

menor do que o tolerado na literatura que é de até 5% (HOWE; LAKE; SHEN, 2006) (EL EMAM; PATON et al., 2011).

Na segunda perspectiva, considera-se que o atacante não tem conhecimento de ne- nhuma identidade dos indivíduos e busca reidentificar qualquer registro anonimizado. Na Tabela 5.4, a primeira linha apresenta 270 registros atacados que retornaram com 6.609 combinações possíveis, resultando numa probabilidade de reidentificação igual a 0,0151%, ou seja, cada um (dentre o grupo de 270 registros anonimizados) combinam com 6.609 in- divíduos dos registros públicos. Para a segunda linha, 281 registros da tabela anonimizada tiveram 7.263 possibilidades de combinações possíveis dentro dos dados públicos, e assim por diante. A terceira coluna (De-anonymization Probability) apresenta a probabilidade de um único registro ser reidentificado. O menor valor para possibilidade de combinações que retornou dos ataques tem 6609 registros, sendo que, neste pior cenário, 270 registros tem a uma probabilidade de ser escolhido como correto igual a 0,015%, que representa o maior risco para o experimento. Por outro lado, a maior parte dos registros tem 95.175 de combinações possíveis com probabilidade de 0,001%, o que representa o menor risco para este cenário.

Tabela 5.4: Resultados para ataques de ligação na tabela anonimizada Combinações Possíveis Número de Registros Probabilidade de Reidentificação

6609 270 0.0151% 7263 281 0.0137% 24193 130 0.0041% 27155 167 0.0036% 89102 955 0.0011% 95175 1293 0.0010%

Novamente, para melhor entendimento dos resultados, os percentis (P0 a P99) foram calculados e apresentados Figura 5.20, resultando em 5 partições dos resultados. Anali- sando o gráfico podemos observar que mais de 80% dos registros têm probabilidade menor que 0,00004134 com um desvio padrão na amostra igual a 0,005059. Considerando esses resultados estatísticos, o maior risco nesse cenário é em torno de 0,51% (ou seja, a maior probabilidade de reidentificação + desvio padrão), é menor que o risco aceitável encontrado na literatura (de até 5%). Além disso, à medida que a probabilidade de reidentificar um registro aumenta, o número de registros com a maior probabilidade de risco de reidentificação diminui.

Figura 5.20: Probabilidade de reidentificação - Segunda perspectiva de ataques Analisando os resultados dos experimentos é possível observar que, para as amostras de dados, os valores para a probabilidade de reidentificação são considerados baixos. Mesmo se atacante que possuir informações específicas de um indivíduo, encontrará dificuldade para identificar um indivíduo. No conjunto de dados do transporte público de Curitiba (anonimizados a partir da saída da plataforma Ophidia), foi possível verificar que mesmo com o uso da informação auxiliar (registros públicos dos cidadãos), necessários para tentar quebrar a anonimização do conjunto de dados, não foi possível ter a certeza sobre qual registro pertence a cada indivíduo especificamente. Essa proteção foi obtida especi- almente pelo componente de riscos desenvolvido utilizando o a abordagem proposta para anonimização de dados em plataforma de análise de dados. A combinação do componente de anonimização que inclui o risco de reidentificação, garantiu que os registros únicos não fossem liberados.

No documento Uma abordagem baseada em anonimização para privacidade de dados em plataformas analíticas (páginas 88-92)