PVFS-Store - Um repositório chave-valor com garantia de localidade

(1)

PVFS-Store - Um reposit´orio chave-valor com garantia de localidade

Ricardo M. Maeda¹

Orientadora: Carmem Satie Hara¹

1PPGInf - Programa de Pós-Graduação em Informática Departamento de Informática – Universidade Federal do Paraná

Caixa Postal 19.081 – 81.531-990 – Curitiba – PR – Brasil

{rmmaeda, carmem}@inf.ufpr.br N´ıvel: Mestrado

Ingresso no programa: Março/2013 Previsão de conclusão: Março/2015 Etapas conclu´ıdas: Créditos em disciplinas

Resumo. Há uma demanda crescente por soluções distribu´ıdas de armazenamento, que preservem a localidade dos dados nos servidores espalhados geograficamente. Grande parte das soluções NoSQL distribu´ıdas são baseadas em uma DHT e possuem pouco ou nenhum controle sobre a colocação dos dados. A garantia da localização é importante para permitir que as informações sejam posicionadas próximas às aplicações consumidoras e agrupadas semanticamente para acessos otimizados. Este trabalho propõe o PVFS-Store, um sistema de armazenamento distribu´ıdo baseado no modelo chave-valor, cujo objetivo é permitir o controle da localidade dos dados pela aplicação.

Palavras-chaves. Armazenamento distribu´ıdo em nuvem, sistemas de arquivos distribu´ıdos, reposit´orio chave-valor, NoSQL, proximidade dos dados, localidade dos dados

paper:66

(2)

1. Introduc¸˜ao

O crescimento vertiginoso no volume de dados manipulados atualmente vem trazendo desafios consideráveis no desenvolvimento de soluções escaláveis e globalmente distribu´ıdas. Estima-se que até 2020 a quantidade de informação digital passará de 130 exabytes (cálculo estimado em 2005) para 40.000 exabytes gerados por ano. Aproxima- damente 40% desta informação será armazenada na nuvem¹. Manter a escalabilidade e a consistência dos dados distribu´ıdos globalmente são desafios crescentes e acompanhados pela comunidade cient´ıfica.

Implementações tradicionais de bases de dados distribu´ıdas estudadas nas últimas décadas não apresentaram escalabilidade aceitável. Isso se deve em grande parte aos impactos em desempenho causados pelos custos da sincronização e tratamento de falhas. Tais implementações acabaram não sendo utilizadas amplamente na indústria [Agrawal et al. 2010], o que resultou no aparecimento de soluções projetadas para es- calar horizontalmente e prover operações simples de leitura/escrita. Estas novas soluções são referenciadas como bases de dados NoSQL (Not Only SQL).

A maior parte destas soluções NoSQL optou pelo armazenamento baseado em DHT (Distributed Hash Table) [Wehrle et al. 2005]) como mecanismo de distribuição e localização dos dados pelo fato de proverem escalabilidade, tolerância a falhas e alta disponibilidade. A distribuição é fundamentada através de uma função de espalhamento, o que torna o controle da localidade dos dados pela aplicação muito baixo ou praticamente nulo. Em sistemas distribu´ıdos geograficamente a proximidade das informações com as aplicações usuárias é fator essencial para evitar a alta latência de redes WAN (Wide Area Network) [Corbett et al. 2013].

Devido à DHT ser desenvolvida para dar suporte a consultas de correspondência exata da chave, ao efetuar buscas baseadas em intervalos ou conjunto de valores, múltiplos servidores acabam sendo acessados. Métodos de indexação sobre a DHT foram propostos [Tang et al. 2010], porém o intuito destas abordagens é possibilitar buscas por intervalo e não diminuir o acesso a múltiplos servidores. Outra alternativa é a adoção de funções de espalhamento que mantêm a ordem lexicográfica das chaves como encontrado no Scala- ris².

Uma outra consequência da adoção de uma DHT é o fato da alocação dos dados ser realizada de maneira aleatória. Isto faz com que a aproximação de dados afins não seja considerada. O agrupamento de dados relacionados já é explorado nos SGBDs relacionais tradicionais, através de ´ındices cluster e particionamento por intervalos para aproximação f´ısica dos blocos de dados. Em sistemas distribu´ıdos globalmente, o mesmo conceito de agrupar informações semanticamente próximas em um mesmo servidor também é benéfica. Quando as informações acessadas em conjunto são agrupadas, a quantidade de servidores envolvidos na operação é minimizada, evitando transações distribu´ıdas com protocolos de alto custo computacional [Shute et al. 2013].

Permitir o controle sobre a localidade dos dados é, portanto, essencial para a escalabilidade e desempenho da solução em ambientes distribu´ıdos geograficamente. O objetivo deste trabalho é implementar um repositório distribu´ıdo baseado em um modelo

1http://idcdocserv.com/1414

2https://code.google.com/p/scalaris

(3)

chave-valor, cuja localidade seja garantida e controlada pela aplicação. A ideia primária

é avaliar os benef´ıcios do agrupamento de informações correlatas em um mesmo servidor e da proximidade dos dados com a aplicação consumidora.

Este trabalho está organizado da seguinte maneira: o cap´ıtulo 2 aborda os trabalhos relacionados, o cap´ıtulo 3 descreve a proposta de implementação deste trabalho e por fim o cap´ıtulo 4 apresenta as considerações finais.

2. Trabalhos Relacionados

Entre os sistemas de armazenamento distribu´ıdo presentes na literatura e relacionados com este trabalho, existem os sistemas de arquivos distribu´ıdos, as bases de dados relacionais distribu´ıdas e os sistemas NoSQL. Uma importante caracter´ıstica destas soluções é a forma como os dados são dispersos. Em geral, elas utilizam uma distribuição homogênea e uniforme dos dados.

Os sistemas de arquivos distribu´ıdos apresentam uma estrutura não centralizada e os dados são dispersos em um conjunto de servidores, que compõem o sistema de armazenamento, aumentando consideravelmente a capacidade computacional da solução. Os clientes e aplicações usuárias não possuem acesso direto à estrutura de disco subjacente e a interação é realizada através de um protocolo pré-estabelecido. A dispersão dos arquivos é transparente e é encargo da solução distribu´ıda localizar o arquivo e transportá-lo até a aplicação que solicitou a informação.

Soluções de código aberto como HDFS (Hadoop Distributed File System) [Shvachko et al. 2010], Ceph [Weil et al. 2006] e PVFS [Ross et al. 2000], ou pro- prietário como GFS (Google File System) [Ghemawat et al. 2003] não são em essência estruturados para dar ciência à aplicação sobre onde o arquivo ou um fragmento dele será armazenado. O HDFS e o GFS não implementam meios efetivos de alocação dos arquivos. Eles dividem os arquivos em fragmentos e estes são alocados em servidores com maior disponibilidade de recursos (menor carga no caso do HDFS ou menor uso de armazenamento no caso do GFS). O Ceph é um sistema de armazenamento distribu´ıdo baseado em objetos, que são espalhados por uma função de dispersão sobre um número de identificação associado a cada objeto. Este sistema provê uma flexibilidade maior, quando comparado às outras soluções, pois o administrador pode definir pol´ıticas de colocação dos objetos na estrutura do sistema distribu´ıdo (por exemplo, discos, servidores,datacen- ters, etc). O PVFS é proposto para fragmentação dos arquivos e distribuição uniforme dos fragmentos para desempenho. Ele possui uma forma efetiva de garantia da colocação do arquivo em determinado servidor. Esta colocação é definida através da interface do PVFS, na qual é poss´ıvel especificar o nome do servidor no momento da criação do arquivo. Isto motivou a sua utilização como repositório de armazenamento, para estudo deste trabalho de mestrado.

Para os sistemas NoSQL, o modelo de armazenamento chave-valor é encontrado nas soluções MemcacheDB³ e Amazon DynamoDB⁴. Elas utilizam DHT como mecanismo de dispersão e o fato da colocação das informações conside- rar uma função de espalhamento (hash), o posicionamento dos dados em determinado servidor não é garantido. Outros sistemas baseados em chave-valor,

3http://memcachedb.org

4http://aws.amazon.com/dynamodb

(4)

com noções de localidade para distribuição dos dados, são explorados nos trabalhos [Ribas et al. 2011, Arnaut et al. 2011, Schroeder et al. 2012] e estão presentes em soluções comerciais envolvendo servidores espalhados geograficamente, como Cassan- dra [Lakshman and Malik 2010] e Spanner [Corbett et al. 2013]. A localidade dos dados nestes repositórios distribu´ıdos tem sido proposta com o intuito de permitir a proximidade das aplicações com seus dados, e minimizar as requisições e controle de acesso quando múltiplos servidores são necessários para atender uma consulta do usuário. Es- tas soluções, que adotaram noções de localidade na distribuição dos dados, são baseadas em um modelo, em que a aplicação utiliza a ordem lexicográfica das chaves para organização das informações. Ao utilizá-las para armazenamento sobre um sistema DHT com distribuição baseada em intervalo, a criação das chaves com prefixos comuns permite

à aplicação o agrupamento dos dados em servidores próximos ou no mesmo servidor.

Porém não há garantias de que chaves similares necessariamente serão alocadas em um

´unico servidor.

As soluções existentes não proveem garantias de localidade na alocação das informações. As soluções que mais se aproximam em atender este requisito distribuem os dados agrupando pela ordem lexicográfica das chaves. Esta abordagem obriga a aplicação a modificar ou adequar as chaves, adicionando prefixos a elas para possibilitar seus agru- pamentos e, apesar de as aproximarem, não há garantias na localidade delas no mesmo servidor. A ausência de uma solução distribu´ıda com suporte a localidade dos dados motivou a proposta do PVFS-Store, apresentado a seguir.

3. PVFS-Store

PVFS-Store é uma proposta de implementação de repositório de dados distribu´ıdo, cujo armazenamento possui como base o modelo chave-valor. Este modelo é utilizado como estrutura de armazenamento f´ısico para grande parte das soluções NoSQL citadas na seção 2 devido a sua flexibilidade, simplicidade e escalabilidade.

O PVFS-Store permite a alocação de um conjunto de pares chave-valor agrupados em uma única estrutura, cuja localidade é ministrada de maneira controlada e orientada pela aplicação usuária do sistema. Esta estrutura é denominadabuckete ela representa a unidade básica de armazenamento e transferência da solução.

3.1. Modelo

A arquitetura do sistema satisfaz a separação em n´ıveis dos SGBDs tradicionais. A camada f´ısica descreve as estruturas f´ısicas do banco de dados e é implementada sobre o repositório distribu´ıdo, PVFS-Store. A camada lógica abstrai os detalhes f´ısicos de armazenamento. Ela se concentra em descrever como os dados são estruturados e como eles são apresentados para a aplicação. Para garantir a compatibilidade com outras soluções NoSQL, o modelo chave-valor é adotado nesta camada.

Uma aplicação sobre o PVFS-Store consegue acessar este repositório, através de uma interface de manipulação dos atributos chave-valor. Ela inclui além destes atributos, alterações e adições de métodos para prover suporte aobuckete ao servidor:

• create bucket(bucket, servidor): criação e inicialização dobucketem umservidor do repositório.

• drop bucket(bucket): remoc¸˜ao dobucketjuntamente com as chaves.

(5)

• put pair(chave, valor, bucket): inclus˜ao de um parchave-valoraobucket.

• get pair(chave): obtenc¸˜ao de um valor a partir de umachave.

• rem pair(chave): exclus˜ao de um par chave-valor a partir dachave.

Tais instruções são similares às encontradas nos sistemas DHT, com uma importante diferença de que a localidade dos registros é controlada pela aplicação, através dos métodos de criação de um bucket e inclusão de um par chave-valor. Além disso, uma interface e repositório adicionais serão desenvolvidos para armazenar as informações do metadado.

• put md(chave, bucket): inclusão no metadado dachavee dobucket, onde ela será inserida. Este método será chamado toda vez que a funçãoput pairfor executada.

• get md(chave): obtenção dobucket, onde está localizada achave. Ele será execu- tado nas chamadas à funçãoget pair.

• rem md(chave): exclusão dachavedo metadado. Sempre que um par chave-valor for removido através dorem pairesta instrução será executada.

A disposição do PVFS-Store em relação à aplicação e ao sistema distribu´ıdo pode ser visualizado na figura 1. Entre a aplicação e a interface do PVFS-Store as informações sobre bucket, chave e valor são utilizadas na interação com o repositório de dados. Já a comunicação do PVFS-Store com o PVFS utiliza uma API do sistema de arquivos distribu´ıdo e possui como unidade obucket.

Figura 1. Arquitetura do PVFS-Store

Na implementação do PVFS-Store, umbucket é fisicamente um arquivo no sistema de arquivos PVFS. Todo bucket está associado a um servidor, necessário para a colocação deste arquivo na solução distribu´ıda.

As informações sobrebucketse servidores são armazenadas em uma estrutura de dados compondo o metadado do PVFS-Store. O metadado é responsável pela associação de uma chave ao bucket e ao servidor, nos quais ela está armazenada. A dispersão e localização dos dados são controladas pela aplicação através deste metadado, ao invés de uma DHT.

Cada bucket possui no cabeçalho meta-informações, como número máximo de chaves, um mapa de bits para controle do espaço livre e uma estrutura de tamanho fixo contendo as chaves existentes no bucket. Os valores associados às chaves são salvos justapostos, no corpo dobucket, após o cabeçalho.

(6)

O PVFS-Store est´a sendo desenvolvido sobre o sistema de arquivos distribu´ıdos PVFS.

3.2. Estudo de Caso

Para avaliação do PVFS-Store como um repositório distribu´ıdo será implementado um módulo de armazenamento customizado do MySQL⁵ (MySQL Custom Storage Engine), que utiliza o PVFS-Store como armazenamento f´ısico. A escolha do MySQL se deve à sua arquitetura modular, na qual é poss´ıvel acoplar módulos de armazenamento de maneira transparente para a aplicação.

Como base deste estudo de caso serão utilizadas abordagens semelhantes às existentes em [Ribas et al. 2011] e [Chang et al. 2008] para mapeamento das relações em pares chave-valor. O módulo de armazenamento MySQL sobre o PVFS-Store será res- ponsável por este mapeamento. Todas as operações existentes na base de dados relacional deverão ser convertidas para instruções do repositório chave-valor. Desta forma, tuplas deverão ser mapeadas para chave-valor no momento de uma operação de inserção e de forma inversa ao obtê-las.

Outras aplicações sobre o PVFS-Store podem ser desenvolvidas. O modelo proposto de chave-valor com garantia de localidade (por meio debuckets) permite utilizá-lo como repositório de uma aplicação NoSQL ou até implementações mais complexas de SGBD sobre ele, que adotem fragmentações horizontais (por linhas) ou verticais (por colunas).

Como validação da proposta deste trabalho e realização de experimentos, a solução será comparada a um armazenamento sobre uma DHT, cuja distribuição é uniforme e homogênea.

4. Considerac¸˜oes Finais

Este trabalho propõe o desenvolvimento de uma solução distribu´ıda armazenada sobre um repositório chave-valor e um metadado para localização das chaves nos respectivosbuc- kets. Esta solução pretende avaliar os impactos do controle da localidade dos dados em um ambiente distribu´ıdo e compará-la com uma abordagem que não leva em consideração a localidade. O PVFS-Store possibilita à aplicação a alocação exata em um determinado servidor das tuplas no repositório distribu´ıdo. As soluções atuais possuem pouco ou nenhum controle sobre a colocação das informações nos servidores e implementam meca- nismos de distribuição uniforme dos dados ou baseados em ordenação lexicográfica.

Com a abordagem proposta é poss´ıvel otimizar aplicações distribu´ıdas globalmente, aproximando os dados das aplicações usuárias. O agrupamento das informações semanticamente relacionadas evita o acesso a múltiplos servidores e ajuda a diminuir a incidência de transações distribu´ıdas.

Portanto, é esperado que a distribuição controlada pela aplicação traga benef´ıcios em uma rede distribu´ıda geograficamente. O repositório PVFS-Store e seu metadado estão sendo implementados sobre um ambiente em nuvem. Para a validação da proposta será desenvolvido um módulo de armazenamento MySQL sobre o PVFS-Store.

5http://www.mysql.com

(7)

O principal desafio na implementação deste trabalho é o desenvolvimento de um metadado descentralizado. Além disso, a especificação de uma interface chave-valor com suporte a localidade dos dados e o seu desenvolvimento sobre um repositório distribu´ıdo são desafios importantes na implementação desta solução.

Referˆencias

Agrawal, D., El Abbadi, A., Antony, S., and Das, S. (2010). Data management challenges in cloud computing infrastructures. InDatabases in Networked Information Systems.

Arnaut, D. E., Schroeder, R., and Hara, C. S. (2011). Phoenix: A relational storage component for the cloud. In Cloud Computing (CLOUD), 2011 IEEE International Conference on.

Chang, F., Dean, J., Ghemawat, S., Hsieh, W. C., Wallach, D. A., Burrows, M., Chandra, T., Fikes, A., and Gruber, R. E. (2008). Bigtable: A distributed storage system for structured data.

Corbett, J. C., Dean, J., Epstein, M., Fikes, A., Frost, C., Furman, J., Ghemawat, S., Gubarev, A., Heiser, C., Hochschild, P., et al. (2013). Spanner: Google’s globally distributed database.

Ghemawat, S., Gobioff, H., and Leung, S.-T. (2003). The google file system. InACM SIGOPS Operating Systems Review.

Lakshman, A. and Malik, P. (2010). Cassandra: a decentralized structured storage system.

Ribas, E. A., Uba, R., Reinaldo, A. P., et al. (2011). Layering a dbms on a dht-based storage engine.

Ross, R. B., Thakur, R., et al. (2000). Pvfs: A parallel file system for linux clusters. Inin Proceedings of the 4th Annual Linux Showcase and Conference.

Schroeder, R., dos Santos Mello, R., and Hara, C. S. (2012). Affinitybased xml fragmen- tation. InWebDB.

Shute, J., Vingralek, R., Samwel, B., Handy, B., Whipkey, C., Rollins, E., Oancea, M., Littlefield, K., Menestrina, D., Ellner, S., et al. (2013). F1: A distributed sql database that scales.

Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed file system. In Mass Storage Systems and Technologies (MSST), 2010 IEEE 26th Sympo- sium on.

Tang, Y., Zhou, S., and Xu, J. (2010). Light: a query-efficient yet low-maintenance indexing scheme over dhts. Knowledge and Data Engineering, IEEE Transactions on, 22(1):59–75.

Wehrle, K., G¨otz, S., and Rieche, S. (2005). 7. distributed hash tables. InPeer-to-Peer systems and applications.

Weil, S. A., Brandt, S. A., Miller, E. L., Long, D. D. E., and Maltzahn, C. (2006). Ceph:

A scalable, high-performance distributed file system. In Proceedings of the 7th Sym- posium on Operating Systems Design and Implementation.