Configurac¸ ˜oes Experimentais

47 Trusted site

6.1. Configurac¸ ˜oes Experimentais

com 10 milh ões de linhas durante 20 minutos com um per´ıodo de ”aquecimento” prévio de 3minutos. Ainda, cada um dos testes foi repetido 5 vezes para calcular a média e o desvio padrão de cada execução. De notar ainda que as avaliaç ões dos micro testes, macro testes e com m últiplos clientes demoraram aproximadamente 2 dias e 13 horas, 2 dias e 10 dias, respetivamente.

6.1.1 Yahoo! Cloud Serving Benchmark

OYCSB é uma plataforma de avaliação de desempenho de bases de dados NoSQL alojadas em nuvem, incluindo HBase, que permite a avaliação destes sistemas com workloads realistas [84]. A motivação da criação desta plataforma rege-se pela uniformização do processo de avaliação de bases de dados, possibilitando a avaliação de sistemas diferentes com workloads iguais. Uma workload disp õem de um conjunto de propriedades parametrizáveis que ditam o ambiente de execução e a carga de trabalho a ser exercida sobre a base de dados.

Cada propriedade presente numa workload influencia diretamente o ambiente de testes. As propriedades mais comuns do YCSB são: o RecordCount que corresponde ao n úmero de linhas a inserir na fase de população da base de dados (de notar que nesta fase não são realizadas operaç ões para além da população da base de dados); o OperationCount que corresponde ao n úmero total de operaç ões a efetuar durante a execução dos testes de avaliação; MaxExecutionTime que corresponde ao tempo máximo de cada execução (a execução termina quando o tempo decorrido do teste é igual ao MaxExecutionTime especifi- cado ou quando o n úmero total de operaç ões foi atingido); o ThreadCount corresponde ao n úmero de clientes (threads) de base de dados a operar em simultâneo; o RequestDistribu- tion corresponde ao tipo de distribuição a aplicar sobre a geração de pares chave-valor e a ordem das operaç ões a serem executadas. Os dois tipos mais comuns de distribuição são a uniforme (Uniform Distribution) que gera e distribui conte údo aleat ório e a zipfian (Zipfian Distribution) que gera e distribui o conte údo segundo uma distribuição em que certos ele- mentos da base de dados são acedidos mais frequentemente (mais populares). Por fim, o OperationProportion corresponde à percentagem do tipo de operaç ões a efetuar na execução da workload. Esta propriedade é composta por um conjunto de 6 operaç ões: InsertProportion corresponde à proporção de operaç ões de inserção (operação HBase Put); ReadProportion corresponde à proporção de operaç ões de leitura (operação HBase Get); DeleteProportion corresponde à proporção da operaç ões de eliminação (operação HBase Delete); UpdatePropor- tion corresponde à porporção de operaç ões de atualização de valores (operação HBase Put); ScanProportion corresponde à proporção de operaç ões de pesquisa (operação HBase Scan) e ReadModifyWriteProportion corresponde à proporção de operaç ões de leitura de uma linha, modificação de um valor, e respetiva atualização desse valor (operaç ões HBase Get-Put). A soma das proporç ões das operaç ões a realizar deve ser igual a 100%.

6.1. Configurac¸ ˜oes Experimentais 63

Contudo, o YCSB nativo não fornece algumas propriedades úteis para a avaliação do sistema SafeNoSQL, que é o caso dos operadores de filtro, geração de workloads pseudo- aleat órias e ainda ”tempo de aquecimento” prévio da base de dados. Desta forma, o m ódulo YCSBpara a base de dados HBase foi modificado de forma a possibilitar estas propriedades. Ainda, o conjunto de propriedades disponibilizado pelo YCSB foi extendido com as propriedades: FilterProportion que corresponde à proporção de operaç ões de filtro; FilterType que corresponde ao tipo de filtro a ser executado (atualmente os filtros suportados são o RowFilter e SingleColumnValueFilter); CompareValue que corresponde ao valor a ser com- parado pelo filtro; FilterColumnDescriptors que indica a que column family e column qualifier o filtro será executado; ComparisonProportion que corresponde à proporção do comparador a usar sobre o filtro (=,>,<,>=,<=); Seed que corresponde ao valor a inserir nos ger- adores aleat órios que determinam a pr óxima operação e os valores sobre os quais irá ser aplicada, de modo a gerar valores pseudo-aleat órios e garantir sempre o mesmo ambiente de execução; RampUpTime que corresponde ao ”tempo de aquecimento” da base de dados.

6.1.2 Esquemas de base de dados

De modo a avaliar de forma realista o sistema SafeNoSQL, foram criadas especificamente dois esquemas de bases de dados, tabelas 6 e 7, que simulam casos de estudo reais no ambiente do setor da sa úde [85]. Este caso de estudo é relevante pois, visto ser um setor que gere grandes quantidades de informação sens´ıvel acerca de pacientes, médicos, auxiliares de sa úde e infraestruturas de sa úde. Não obstante, o armazenamento desta informação deve cumprir vários regulamentos legais relativos à privacidade de dados [86]. Desta forma,

é poss´ıvel extrair resultados mais relevantes, levando consequentemente a conclus ões mais significativas acerca dos custos de desempenho induzidos pelo uso de diferentes técnicas criptográficas.

O primeiro esquema, Patients, é descrito na tabela 6 e complementa um subconjunto de dados tipicamente encontrados numa base de dados hospitalar que dizem respeito à informação pessoal dos pacientes. Este esquema é composto por um identificador de linha para cada paciente, aleatoriamente gerado pela camada aplicacional, e por um conjunto de column families (Identificação, Contactos, Obs. e Cons.) que agrupam um conjunto distinto de column qualifiers que dizem respeito à informação sens´ıvel dos pacientes (MainID, Nome, Apelido, D. Nasc., Nac., C.C., Morada, Contacto e Obs.). A column family Cons. pode ter um n úmero dinâmico de column qualifiers, cada um deles fazendo referência ao identificador de uma consulta médica de um paciente em questão (este identificador diz respeito ao identificador de linha do esquema da tabela7).

A tabela 6 indica ainda o tamanho, em bytes, de cada column qualifier, bem como uma proposta das t´ecnicas criptogr´aficas a serem aplicadas sobre cada campo, de forma a obter o

6.1. Configurac¸ ˜oes Experimentais 64

melhor compromisso entre as funcionalidades a processar na base de dados e a privacidade da informac¸˜ao sens´ıvel dos pacientes.

Key

Identificac¸˜ao Contactos Obs. Cons.

MainID Apelido Nome D. Nasc.

Nac. C.C. Morada Contacto Obs. [1-*]

8 64 64 64 14 4 9 256 13 1024 8

DET DET STD STD STD STD STD STD STD STD STD

Cons. - Consultas; MainID - Identificador principal; D. Nasc. - Data de Nascimento; Nac. Nacionalidade; C.C. - Cartão de Cidadão; Obs. - Observações.

Tabela 6: Esquema de base de dados NoSQL relativo a pacientes hospitalares.

Como é poss´ıvel verificar, os campos diretamente associados à informação pessoal dos pacientes são protegidos com Standard Encryption. Contudo, de forma a possibilitar computação sobre a informação dos pacientes, o column qualifier MainID foi protegido com Determinis- tic Encryption. Este identificador é constru´ıdo através do primeiro e último nome e data de nascimento do paciente, sendo frequentemente usado para identificar os pacientes em sistemas da área da sa úde.

De notar ainda que o espaço de armazenamento de uma linha em plaintext é 1552 bytes e para o esquema seguro proposto é 1888 bytes. Este aspeto revela-se importante por representar novos compromissos em sistemas de computação segura sobre bases de dados NoSQL, que é o caso do espaço de armazenamento dos criptogramas e a largura de banda no processamento dos mesmos.

O segundo esquema, Appointments, é apresentado na tabela 7 e armazena as consultas médicas de um hospital para um dado médico e um paciente. O esquema é composto por um identificador de linha para cada consulta, gerado aleatoriamente pela camada aplicacional, e por um conjunto de column families (Médico, Paciente, Consulta e Instituição) que agrupam um conjunto distinto de column qualifiers que dizem respeito à informação sens´ıvel das consultas médicas (Méd. ID, Pac. ID, Data, Tipo, Obs., Nome e Morada).

Nesta tabela, é apresentada uma proposta para um poss´ıvel esquema de base de dados em que os column qualifiers Méd. ID é cifrado com DET e a Data com OPE, enquanto que os restantes column qualifiers são cifrado com STD. Desta forma, o esquema permite realizar as operaç ões mais comuns sobre consultas médicas, p.e., quais as consultas agendadas para um determinado médico para o mês x.

De acordo com a otimização discutida na secção5.4, o column qualifier Data-STD é criado dinâmicamente e permite reduzir o custo de decifrar dados protegidos com OPE. Relati- vamente ao espaço de armazenamento, uma linha em plaintext tem um tamanho de 1552 bytes, ao passo que uma linha do esquema seguro tem 1756 bytes.

No documento Computação segura em bases de dados NoSQL (páginas 75-78)