Performance e deduplicac¸ ˜ao - Segurança criptográfica no armazenamento e partilha de dados em

Duplicaç ão é o ato de criar uma r éplica de uma dada informaç ão. Deduplicaç ão, por sua vez, é uma t écnica de reduç ão de espaço de armazenamento que utiliza a ideia de que, se existe uma c ópia no sistema, talvez n ão haja necessidade de adicionar mais, utilizando-se a j á presente. Nomes diferentes t êm vindo a ser atribu´ıdos a esta t écnica: compress ão inteligente, armazenamento de inst ância única, armazenamento de optimizaç ão de capaci- dade, entre outros. Trata-se de identificar a informaç ão redundante, eliminar todas as c ópias excepto uma e criar apontadores l ógicos para essa informaç ão, de modo a que todos os uti- lizadores consigam aceder a esse material.

Segundo Juan Orlandini [27], é um conceito que existe desde 1960, no entanto, o primeiro produto moderno a utilizar esta t écnica foi o DD200, apenas lançado em 2004. Uma vez que se trata de reduzir a quantidade de duplicados num sistema, esta metodologia é t ão eficiente quanta mais informaç ão reduzir desta forma, ou seja, funciona melhor em espaços grandes de informaç ão, preferencialmente com baixa entropia. Resultados pr áticos t êm vindo a revelar uma melhoria em termos de espaço economizado, mas a escala dessa reduç ão varia consoante os estudos: h á quem diga que é poss´ıvel armazenar 20 vezes mais informaç ão [27], outros afirmam que metade do espaço utilizado é ocupado por duplicados [22] e h á quem apresente resultados com 30% de reduç ão do espaço utilizado [41].

A realizaç ão da deduplicaç ão implica um mecanismo de processamento de informaç ão que identifique redund âncias de dados. Esta identificaç ão pode ser realizada utilizando a t écnica de hashing ou a de delta encoding, sendo que para o caso de estudo vai ser abordada apenas a primeira.

O sistema deduplicado vai possuir um registo com a associaç ão de identificadores de hash, que se acreditam únicos [47], aos respetivos contadores de refer ências, sendo que o processamento de nova informaç ão consiste no c álculo do seu valor de hash e posterior pes- quisa no registo. Os identificadores podem fazer refer ência a ficheiros inteiros (whole-file

hashing: WFH) ou a blocos, sendo estes de tamanho fixo (fixed block hashing: FBH) ou vari ´avel (variable block hashing: VBH).

Este tipo de sistemas podem operar de forma s´ıncrona ou ass´ıncrona:

• Deduplicaç ão s´ıncrona - Nestes casos, as operaç ões de deduplicaç ão ocorrem sem- pre que s ão realizadas funç ões que visam alterar a informaç ão armazenada. Para adicionar dados, caso j á exista uma entrada no registo com o valor conseguido, é au- mentado o contador de refer ências e é criado um apontador l ógico para a informaç ão j á existente. Para os casos de remoç ão de dados, o contador de refer ências é crucial para o sistema perceber quando é poss´ıvel eliminar o conte údo, assinalando quando j á n ão existem mais associaç ões ao mesmo.

• Deuplicaç ão ass´ıncrona - Nestes casos, as medidas de deduplicaç ão ocorrem em intervalos de tempo programados, executando sobre toda a informaç ão nos servidores (ou sobre a que ainda n ão foi deduplicada, dependendo dos casos).

Para os casos em que a deduplicaç ão é realizada do lado do utilizador, é poss´ıvel dividir as operaç ões de armazenamento em 2 passos: No primeiro é enviado apenas o valor de hash do ficheiro e no segundo é enviado o ficheiro completo. Com este m étodo de funcionamento, o servidor recebe o hash, avalia o registo para verificar se j á possui o ficheiro na base de dados e, se tal for o caso, responde adequadamente ao cliente, evitando a necessidade de execuç ão do segundo passo.

As exig ências de performance dos serviços de armazenamento fazem com que a adaptaç ão a estas t écnicas seja um processo sens´ıvel. Assim, para a implementaç ão de sistemas deduplicados, é importante ter em conta os fatores envolvidos na mesma e perceber de que forma estes s ão afetados pelas diferentes vertentes da sua operaç ão.

Os fatores envolvidos na deduplicac¸ ˜ao consistem em:

• Overhead - Uma vez que a deduplicaç ão envolve c álculos adicionais de identificadores, o armazenamento e poss´ıvel transmiss ão dos mesmos é um incremento que deve ser tido em conta.

• Consumo de recursos - O processo de c álculo de identificadores e reconstruç ão dos ficheiros exige um investimento adicional de poder de processamento.

Figura 3.4: Escolhas na implementa¸c˜ao da deduplica¸c˜ao

• Fold factor - Este fator é determinante para definir a efici ência da t écnica de deduplicaç ão, representando o n´ıvel de reduç ão de informaç ão armazenada.

As diferentes escolhas na implementaç ão de sistemas de deduplicaç ão envolvem a localizaç ão, temporizaç ão e granularidade das operaç ões, como se pode observar na fi- gura3.4.

Em termos de localizaç ão, a deduplicaç ão pode ser realizada no cliente ou no servidor. No lado do cliente torna-se poss´ıvel o armazenamento em 2 passos, o que permite poupanças de largura de banda. No entanto, nos casos em que os servidores t êm muito mais poder de processamento que os clientes, ou se o objetivo é conseguir clientes leves, faz sentido colocar o processo de deduplicaç ão no lado do servidor.

Em termos de temporizaç ão, a escolha vai depender dos recursos envolvidos. Caso se trate de um sistema com fortes exig ências de performance, faz sentido que a deduplicaç ão seja realizada assincronamente, de modo a n ão pesar as operaç ões do sistema com o incremento de funç ões a executar. No caso de ser importante a minimizaç ão de espaço armazenado, a aplicaç ão de deduplicaç ão s´ıncrona vai certificar-se que o sistema se en- contra sempre deduplicado, maximizando a efic ácia da t écnica. É importante notar que, para casos de quantidades elevadas de informaç ão ou de sistemas que exigem elevada disponibilidade dos dados, a deduplicaç ão ass´ıncrona pode ser impratic ável.

Em termos de granularidade, os crit érios v ão passar pelo overhead e pelo fold factor. Uma vez que dois ficheiros podem n ão ser estritamente iguais, mas conterem parcelas de conte údo semelhantes (fig. 3.5), a divis ão dos mesmos por blocos pode aumentar o fold factor da t écnica. Quanto mais pequenos forem os blocos, mais prov ável é a exist ência

Figura 3.5: Exemplifica¸c˜ao da deduplica¸c˜ao por blocos

desses casos, mas tamb ém maior vai ser o consumo de recursos e o overhead envolvido no c álculo dos identificadores. A utilizaç ão de blocos de tamanho vari ável permite que a deduplicaç ão se adapte ao sistema, melhorando fold factor11_{, mas os algoritmos utilizados} para o c álculo do tamanho de blocos incorrem em mais custos de processamento.

No documento Segurança criptográfica no armazenamento e partilha de dados em ambientes cloud (páginas 44-47)