• Nenhum resultado encontrado

2.2 Anonimização de dados

2.3.2 Utilidade dos dados

Medir a utilidade dos dados é uma tarefa difícil. Para se determinar a utilidade, é ne- cessário comparar o conjunto de dados anonimizados com o conjunto de dados original. Essa avaliação da utilidade deve ser realizada, pois a depender da técnica ou processo de anonimização utilizado, os resultados da mineração de dados podem induzir resultados parciais ou enganosos. Para melhor discussão vamos dividir em duas formas: utilidade qualitativa e quantitativa. Na forma qualitativa é avaliada a qualidade do processo de mineração de dados face à melhora ou piora na precisão da classificação ou predição (KOHLMAYER; PRASSER; KUHN, 2015). A forma quantitativa consiste na verificação da porcentagem de dados removidos de um conjunto de dados durante o processo de ano- nimização, utilizando-se a métrica de perda de informação mostrada por (KOHLMAYER; PRASSER; KUHN, 2015).

De acordo com Templ et al. (2017), existem dois tipos diferentes de abordagens complementares para avaliar a perda de informação: (i) medição direta de distâncias / frequências entre os dados originais e dados perturbados, e (ii) comparação de estatísticas computadas nos dados originais e perturbados. É importante ressaltar que a perda da informação não necessariamente implica na redução da qualidade da utilidade dos dados para tarefa de mineração. Nos estudos de caso descritos no Capítulo 5 os resultados mostraram que, apesar do crescimento da perda de informação, a qualidade da precisão dos classificadores, em alguns casos, foi melhorada durante a tarefa de mineração.

Capítulo 3

Trabalhos Relacionados

Com a finalidade de compreender melhor os diversos aspectos relacionados, neste capítulo são apresentados os trabalhos relacionados à proposta desta dissertação. Para melhor organização, foram criadas as seções: “avaliação do impacto da anonimização”; “avaliação do risco de reidentificação” e “frameworks para preservação da privacidade”.

Os artigos selecionados para compor a revisão bibliográfica foram extraídos das ba- ses eletrônicas da ACM (Association for Computing Machinery) Digital Library, IEEE (Institute of Electrical and Electronics Engineers) Xplore Digital Library e ScienceDirect (Elsevier) pois são consideradas, pela comunidade científica, as mais relevantes. Outros tipos de materiais online também serviram de referencial bibliográfico, tais como data sheet de ferramentas e documentos públicos resultantes de pesquisas realizadas no âmbito do projeto EUBra-BIGSEA.

3.1

Avaliação do impacto da anonimização

De acordo com o trabalho de Inan et al. (2009), é espantoso a existência de um nú- mero pequeno de pesquisas que visam a investigação do desempenho dos algoritmos de mineração de dados em dados anonimizados. O estudo de Buratović et al. (2012), cuja finalidade era determinar se é possível usar dados anonimizados para fins de pesquisa, ve- rificou o efeito da anonimização em comparação ao conjunto de dados original, validando os resultados da mineração do conjunto de dados alterados (anonimizados). Os conjuntos de dados, contendo a informação de alunos, foram anonimizados usando κ-anonymity e a mineração dos dados foi extraída com a ferramenta WEKA (Waikato Environment for

Knowledge Analysis) (WITTEN et al., 2016). Os resultados do estudo mostraram que a anonimização pode, ao mesmo tempo, preservar a privacidade e preservar os resulta- dos da mineração de dados quase que sem alteração quando os dados anonimizados são comparados aos dados originais.

Brickell e Shmatikov (2008) mediram o equilíbrio alcançado entre duas características desejáveis e incompatíveis (em ingles, trade-off ) - privacidade e utilidade qualitativa dos conjuntos de dados, utilizando-se a precisão dos algoritmos de mineração de dados. Para tanto, o trabalho propôs um framework baseado em definições e métricas semânticas para quantificar a divulgação de atributos. Os resultados evidenciaram que, na maioria dos casos, a sanitização comum, utilizada nas etapas de pré-processamento quando todos os semi-identificadores ou atributos sensíveis são removidos, fornece utilidade equivalente ou melhor privacidade do que κ-anonymity, `-diversity e outros modelos similares baseados apenas em generalização e supressão.

Paranthaman e Victoire (2013), verificaram como o κ-anonymity afeta o algoritmo de classificação Naive Bayes. Os autores verificaram que, com o aumento da anonimi- zação por κ-anonymity, o desempenho do classificador se degradou proporcionalmente. Já o estudo de Nyati e Bhatnagar (2016) avaliou o desempenho de alguns algoritmos de classificação sob o aspecto dos fluxos de dados, evidenciando que estes são preservados usando técnicas de anonimização. Na mesma linha, o trabalho de Inan et al. (2009), que também abordou o problema da classificação sobre dados anonimizados concluiu que os dados anonimizados, mantém a privacidade individual e ao mesmo tempo preserva a mineração de dados distribuída, sem prejuízo relevante à acurácia dos algoritmos de clas- sificação. Nessa abordagem foi proposta a modelagem dos atributos generalizados para dados anonimizados como informação não certa, isto é, cada campo generalizado de um registro anonimizado é acompanhado por estatísticas coletadas dos registros na mesma classe de equivalência. Com essa informação extra, gerada após os dados anonimizados, foi possível realizar o cálculo preciso dos valores esperados na etapa de análise de dados. A abordagem utilizada nessa dissertação difere dos trabalhos de Inan et al. (2009), Brickell e Shmatikov (2008) e Buratović et al. (2012) em três aspectos principais. O primeiro aspecto diz respeito a não abordarmos a semântica de dados (como é feito por Brickell e Shmatikov et al. (2008)). A análise semântica torna a tarefa de anonimização mais complexa, e o intuito desta dissertação é justamente tornar o processo de anoni-

mização o mais simples possível. O segundo aspecto é que, diferentemente de Brickell e Shmatikov (2008), usamos as métricas fornecidas pelas ferramentas usadas nos experi- mentos, uma vez que elas já estão validadas e consolidadas pela comunidade científica. O terceiro aspecto diz respeito a não adicionar informação ao dados brutos (como em Inan et al.(2009)) porque isso poderia introduzir uma tendência na tarefa de mineração de dados. Além desse fato, os experimentos mostrados no Capítulo 5 consideram, além dos semi-identificadores, os principais atributos e informações sensíveis do conjunto de dados. Assim, nossa análise foi realizada com um escopo mais amplo de tipos de atributos.

A metodologia de avaliação do impacto da anonimização de dados nos resultados dos classificadores utilizada neste trabalho está mais próxima a Buratović et al. (2012). Na nossa abordagem comparamos a acurácia do conjunto de dados original e do conjunto de dados anonimizados utilizando ferramentas disponíveis, sem alterar os algoritmos e tarefas efetuadas. Em complemento ao trabalho de Buratović et al. (2012), as fases de anonimização propostas em nossa abordagem nos permitem fazer uma análise mais deta- lhada do impacto de diferentes técnicas individualmente, levando-se em conta cada tipo de dado (atributos identificadores, semi-identificadores e sensíveis), incluindo κ-anonymity. Além da acurácia, foi avaliado também o impacto no desempenho do processo de anoni- mização e da mineração de dados. Diferente de Nyati e Bhatnagar (2016), neste trabalho usamos algoritmos tradicionais para banco de dados relacionais estáticos. Este trabalho é mais parecido com Paranthaman e Victoire (2013), pois utiliza técnicas tradicionais de anonimização, tais como a generalização e a supressão. Além disso, é complementada a avaliação dos algoritmos de mineração de dados usando não somente Naive Bayes, mas também outros classificadores como Zero-R, LWL(K-NN) e SDG Text (SVM).