Arquiteturas de SAD - SISTEMAS DE ARQUIVOS DISTRIBU´IDOS

3.3 SISTEMAS DE ARQUIVOS DISTRIBU´IDOS

3.3.1 Arquiteturas de SAD

Nesta se¸cão, são demonstrados os tipos de organiza¸cões presen- tes na maioria dos SAD classificados por Tanenbaum (STEEN; TANEN- BAUM, 2007). Estes são classificados por três tipos: cliente-servidor, baseado em clusters e sistemas simétricos.

3.3.1.1 Cliente-Servidor

A arquitetura cliente-servidor, ilustrada na figura 12, é o conceito base para o sistema de arquivos distribu´ıdos mais comum de qualquer sistema UNIX quando se trata de compartilhamento de arquivos. A ideia por trás da arquitetura cliente-servidor é um servidor de dados disponibilizar o acesso a arquivos hospedados por qualquer cliente que esteja suscet´ıvel de utilizar o servi¸co. Os clientes acessam os arquivos como qualquer outro arquivo local, não importando ao cliente onde eles estão fisicamente. O NFS disponibiliza uma interface de acesso como a dos sistemas de arquivos locais, através da interface POSIX.

Figura 12 – Arquitetura cliente-servidor

3.3.1.2 Baseada em cluster

A arquitetura baseada em cluster (Figura 13) é uma arquitetura voltada para aplica¸cões paralelas, que é a base para o surgimento das técnicas de distribui¸cão de dados de um arquivo (file-striping techni- ques). Estas técnicas têm como fun¸cão espalhar partes de um arquivo em múltiplos servidores, tornando poss´ıvel o acesso de diferentes partes em paralelo. Para controlar a integridade dos dados sob múltiplos acessos paralelos, normalmente os SAD utilizam o mecanismo chamado de lock, que impossibilita qualquer altera¸cão do conteúdo do dado por parte de outros processos, a menos que nenhum processo o esteja aces- sando.

Todavia, nem sempre é efetivo ou de interesse da aplica¸cão paralela distribuir um arquivo em partes. De tal modo, alguns sistemas de arquivos permitem a configura¸cão da distribui¸cão de arquivos como todo, sem a necessidade de dividi-lo.

Os SAD que comportam estas técnicas de distribui¸cão dos dados, permitindo o acesso paralelo entre os servidores de E/S, são chamados de sistemas de arquivos paralelos (SAP). Este tipo de arquitetura é eficiente quando contém um gerenciador para tratamentos de falhas e um gerenciador de coerência de dados. Normalmente, cada sistema de arquivo busca desenvolver o seu próprio gerenciador, de modo a servir de melhor maneira para o sistema em questão.

3.3.1.3 Sim´etrica

A arquitetura simétrica (Figura 14) é baseada na tecnologia peer- to-peer, em que a proposta utiliza como base uma tabela de hash distribu´ıdo (Distributed Hash Table) para a distribui¸cão de dados, combi-

Figura 13 – Arquitetura baseada em cluster

nado com um mecanismo de pesquisa baseado em chaves. Além disso, esta arquitetura pode ser constru´ıda em cima de uma camada de armazenamento distribu´ıdo, ou todos os arquivos são armazenados local- mente no nodo participante. Um exemplo de um sistema distribu´ıdo que utiliza esta arquitetura é o sistema Apache Ivy.

Figura 14 – Arquitetura sim´etrica

3.3.2 Componentes de SAD

Alguns conceitos básicos que se aplicam aos sistemas de arquivos distribu´ıdos em geral têm como base objetivos fundamentais de fornecer ao cliente total transparência nos seus arquivos, não havendo necessidade de conhecer a localiza¸cão f´ısica do arquivo e garantir dis- ponibilidade. Para prover estas necessidades, os sistemas de arquivos distribuem as tarefas entre diferentes nodos. Esta divisão de tarefas

tende a dificultar o gerenciamento do sistema, contudo, torna o sistema mais consistente a fim de garantir um maior controle de falhas do sistema. É de importância saber até que ponto os mecanismos de consistências e sincroniza¸cão influenciam no desempenho do sistema. Cada tarefa é delegada a um ou mais nodos, de modo que cada nodo pode aderir mais de um tipo de tarefa.

Basicamente, s˜ao atribu´ıdos trˆes tipos de tarefas:

• Metadados. Estes são nodos dos sistemas responsáveis por con- ter as informa¸cões sobre os arquivos. Estas informa¸cões tratam desde nomes, permissões, datas de acesso e principalmente as localiza¸cões dos blocos dos dados no sistema. A distribui¸cão dos arquivos pode ser dada por blocos fixos enviados de maneira c´ıclica entre os nodos, ou distribui¸cão dinâmica de acordo com o tipo do sistema ou de acordo com a necessidade da aplica¸cão. São os primeiros nodos a serem consultados por um cliente, quando o servidor de metadados pode repassar o caminho do arquivo ou ao mapeamento dos dados.

• Servidores de dados. São aqueles que vão realizar as opera¸cões de entrada e sa´ıda dos blocos dos arquivos em disco. As opera¸cões são realizadas de acordo com o servidor de metadados do sistema, que este informa o tamanho do bloco de leitura e escrita, e a localiza¸cão do bloco.

• Clientes. Os clientes realizam o acesso aos dados através de uma interface. No caso dos SAD, basicamente existe dois tipos de acesso, direto e indireto, ilustrados na Figura 15. No acesso direto, o cliente acessa os arquivos diretamente após consultar o servidor de metadados, que verifica a permissão e informa a localiza¸cão dos blocos dos arquivos, para que o cliente acesse esses blocos. No acesso indireto, o cliente envia a opera¸cão ao servidor de metadados, que envia a opera¸cão para os servidores de dados que possuem os blocos do arquivo. Desta maneira, os sistemas com acesso indireto possuem um custo adicional de transmissão de dados e os metadados têm total controle sobre os acessos dos dados.

Independente do tipo de acesso, ambos trocam mensagens com o servidor de metadados, e com o aumento do número de requisi¸cões, pode tornar-se um gargalo de comunica¸cão para o SAD. Alguns SAD como PVFS e Lustre, distribuem os servidores metadados com a fi- nalidade de contornar casos de sobrecarga de requisi¸cões. Para que o

sistema funcione é necessário prevenir a falta de consistência de dados entre os metadados e é importante evitar processos desnecessários, como por exemplo, uma simples consulta de um cliente necessitando buscar informa¸cões dos dados em todos os metadados (KASSICK, 2010).

Figura 15 – Ilustra¸c˜ao do acesso direto e indireto

3.4 EXEMPLOS DE SAD

No documento Uma arquitetura paralela para o armazenamento de imagens médicas em sistemas de arquivos distribuídos (páginas 54-58)