Coleta de Dados - Estudo de Caso – Worldwide LHC Computing Grid

4. Análise de Grid Computing

4.1.3 Estudo de Caso – Worldwide LHC Computing Grid

4.1.3.2 Coleta de Dados

O projeto do Worldwide LHC Computing Grid estabeleceu uma infra-estrutura global e com alta capacidade de processamento, composta por mais de 140 centros de computação em mais de 33 países para prover acesso aos dados do LHC para mais de sete mil cientistas ao redor do mundo (LHCGRIDFEST, 2008).

O CERN investiu aproximadamente 100 milhões de Euros até o ano de 2008 em pessoal e material para a construção do WLCG, recursos financeiros que são provenientes do governo nacional da Suíça e também da União Européia. Entretanto, estima-se que a participação do CERN corresponde somente a 20% do investimento total para a construção da infra-estrutura computacional do WLCG (LHCGRIDFEST, 2008).

Gráfico 1 – Investimento no WLCG até o ano de 2008

É importante perceber que a colaboração financeira das outras instituições foi de extrema importância para que o WLCG pudesse alcançar fundos necessários para a constituição de um ambiente computacional com a quantidade indicada de recursos para atender a demanda de processamento advinda do LHC. Basicamente, cada instituição participante é responsável por seus gastos com o projeto, permitindo que o custo total fosse distribuído entre todos os envolvidos.

O projeto do WLCG organizou o seu ambiente computacional em camadas para facilitar a integração de recursos e a configuração de troca de dados entre as entidades participantes do projeto. Assim, a infra-estrutura do WLCG é composta de três principais camadas. A primeira camada (Tier-0) corresponde ao centro de computação do CERN, o qual é responsável por armazenar todos os dados recebidos do experimento do LHC e enviar os mesmos, baseado nas Organizações Virtuais, para instituições da segunda camada (Tier-1).

A segunda camada (Tier-1) é composta por onze sítios de computação espalhados ao redor do mundo. Todos esses sítios são de extrema importância para o WLCG, possuem conexão dedicada com o CERN e também são os responsáveis pela transferência de dados para outros sítios de computação da terceira camada (Tier-2). A Tabela 1 lista os onze sítios que compõem a segunda camada (Tier-1) do projeto do WLCG:

Tabela 1 – Sítios de computação da segunda camada Tier-1 (WLCG, 2009)

Os sítios da terceira camada (Tier-2) são associados de acordo com a proximidade geográfica a um sítio de nível superior (Tier-1), o qual é responsável por transferir os dados de acordo com o modelo de participação nas Organizações Virtuais.

Os sítios da terceira camada armazenam os dados recebidos e alimentam os laboratórios de física de partículas para que os cientistas possam analisar os dados do LHC a partir de seus próprios ambientes informacionais. Estima-se que o WLCG possibilitará acesso aos dados do LHC para aproximadamente sete mil cientistas.

A terceira camada do WLCG é composta por mais de 140 sítios agrupados em 60 federações que cobrem a Alemanha, Austrália, Áustria, Bélgica, Canadá, China, Dinamarca, Eslovênia, Espanha, Estados Unidos da América, Estônia, Finlândia, França, Holanda, Hungria, Itália, Índia, Israel, Japão, Noruega, Paquistão, Polônia, Portugal, Reino Unido, República da Coréia, República Tcheca, Romênia, Rússia, Suíça, Suécia, Taipei e Ucrânia. É importante destacar que os dois principais projetos de Grid Computing citados nesta dissertação, o EGEE e o OSG, também fazem parte do WLCG.

O Brasil participa do projeto desde 2006, entretanto não é reconhecido pelo CERN como colaborador. Em Abril de 2009 a FAPESP enviou um memorando de entendimento para formalizar a participação de pesquisadores do país no Worldwide LHC Grid Computing (UNESP, 2009).

Vale ressaltar que a infra-estrutura do Worldwide LHC Grid Computing proporciona um dos ambientes computacionais com maior capacidade de processamento na atualidade. O

Localidade Sítio

Canadá TRIUMF

Alemanha Karlsruhe Institute of Technology Espanha Port d'Informació Científica(PIC)

França IN2P3 - Institut national de physique nucléaire et de physique des partic Itália INFN – Istituto Nazionale di Fisica Nucleare

Nordic Datagrid Facility

Holanda NIKHEF - Nationaal instituut voor subatomaire fysica

Taipei ASCG

Reino Unido GridPP – UK Computing for Particle Physics Fermilab

RACF Computing Facility Países Nórdicos Estados Unidos Estados Unidos

WLCG já foi responsável pela execução de aproximadamente 44 milhões de Jobs em 2007 e mais de 65 milhões em 2008. Entretanto, estima-se que a quantidade que o WLCG deverá processar pode chegar a 500 mil Jobs diários quando o LHC estiver em atividade por completo. Com base nesses dados é possível fazer uma projeção do aumento do número de

Jobs a serem processados a partir do ano de 2009, conforme o Gráfico 2:

Gráfico 2 – Projeção da quantidade de Jobs

Percebe-se com base no Gráfico 2 que a quantidade de Jobs apresenta um crescimento expressivo ao longo do tempo, situação que pode, consequentemente, demandar maior utilização dos recursos computacionais que compõem o WCLG, guiando o projeto a uma eminente expansão de sua infra-estrutura.

A Tabela 2 está populada com os dados referentes ao total de recursos de CPU, espaço de armazenamento em disco e espaço de armazenamento em fita que são requeridos para os próximos anos de acordo com o WLCG (2009). Os recursos de CPU utilizam a métrica de capacidade KSI2K, o qual corresponde a milhares de unidades da métrica de CPU SPECint200016_{. Já os recursos de armazenamento utilizam a métrica de Terabyte.}

Tabela 2 – Projeção da quantidade total de recursos

O foco desta dissertação não é mensurar o poder computacional do WLCG, porém o

16 SPECint2000 - É um especificação computacional baseada em benchmarking de processadores.

2008 2009 2010 2011 2012 2013

CPU (KSI2K) 98715 174258 315695 409975 509695 658206

Disco (Tbytes) 40036 68858 111793 151931 193579 275075

que se pretende mostrar é a crescente demanda por recursos computacionais ao longo dos anos, para que posteriormente seja possível analisar a colaboração de cada camada (Tier-0,

Tier-1 e Tier-2) para o projeto.

A Tabela 2 mostra a quantidade total de recursos que é requerida pelo projeto do WLCG para alcançar nível aceitável de processamento no ambiente de Grid Computing, porém não cita a quantidade de recursos cedida por cada camada.

Já os Gráficos 3, 4 e 5 demonstram, com base em dados de relatórios de recursos disponibilizados no portal do WLCG (2009), a colaboração de cada camada para atingir a quantidade total de recursos especificada para cada ano. O Gráfico 3 demonstra a participação de Tier-1, Tier-2 e Tier-3, através do compartilhamento de CPUs, para constituição da infra- estrutura global do LHC.

Gráfico 3 – Projeção de recursos de CPU por camada

Com base no Gráfico 3, percebe-se que o CERN (Tier-0) é a camada que tem a projeção para contribuir com menos recursos para os próximos anos. Mesmo sendo a instituição fundadora do projeto, o CERN conta com forte colaboração tanto dos sítios de processamento da segunda camada (Tier-1) quanto da terceira camada (Tier-2) para habilitar um ambiente com alta capacidade de processamento.

O gráfico 4 demonstra, seguindo a mesma linha do Gráfico 3, a quantidade de espaço para armazenamento de disco correspondente com cada camada.

Gráfico 4 – Pojeção de recursos de armazenamento em disco por camada

Com base no Gráfico 4, é possível destacar que a colaboração de espaço de armazenamento esperada para os próximos anos também é muito maior para segunda camada (Tier-1) e terceira camada (Tier-2) do que para o próprio CERN.

Mesmo o sítio do Tier-0 sendo o responsável por receber todos os dados do LHC e armazená-los para posterior envio aos sítios da segunda camada (Tier-1), nota-se que a maioria dos sítios dos Tier-1 e Tier-2 também poderão receber os mesmos dados para que seus cientistas possam fazer suas pesquisas, aumentando a capacidade de armazenamento em disco por toda a infra-estrutura do WLCG.

O Gráfico 5 difere dos gráficos anteriores pelo fato de contemplar somente o CERN (Tier-0) e os sítios da segunda camada (Tier-1). Isso ocorre pelo fato do armazenamento em fita ser utilizado basicamente para backup, ou seja, quando os dados estão sendo processados por aplicações eles são armazenados em disco (conforme visto no Gráfico 4) e após o seu uso podem ser gravados em fitas. É importante lembrar que os sítios do Tier-0 e Tier-1 formam a estrutura essencial do WLCG, principalmente por serem os responsáveis pelo pré- processamento dos dados e também por enviá-los para todos os envolvidos no projeto. Os sítios da segunda camada têm acordos diferenciados com o CERN para a participação no WLCG, o que pode acarretar em algumas obrigações específicas aplicadas para eles, como por exemplo, garantir uma cópia de segurança dos dados do projeto.

Gráfico 5 – Projeção de recursos de armazenamento em fita por camada

Com base no Gráfico 5, percebe-se que o CERN contribui com menos da metade da capacidade total de armazenamento em fita, sendo que a grande parte da colaboração está distribuída entre os sítios do Tier-1.

No geral, é possível destacar que a maior parte da capacidade de processamento e armazenamento do WLCG é proveniente da colaboração dos sítios da segunda (Tier-1) e terceira camada (Tier-2), que juntos correspondem a mais de 140 centros de computação ao redor do mundo.

Adicionalmente ao WLCG, o projeto do LHC também utiliza um ambiente baseado no modelo de computação voluntária. O LHC@HOME (2009) é uma iniciativa que possibilita que pessoas possam colaborar com o projeto do LHC a partir de suas casas, cedendo a capacidade excedente das suas máquinas para processamento de dados do superacelerador de partículas. Esse projeto está atualmente sendo executado na plataforma BOINC.

O LHC@HOME diferencia-se do WLCG por ser um ambiente aberto na Internet constituído de voluntários ao redor do mundo. Sendo assim, esse projeto tem como objetivo principal o processamento de tarefas que exigem alto poder de processamento, mas uma taxa relativamente baixa de transferência. O LHC@HOME tornou-se a infra-estrutura para a execução de um programa denominado SixTrack, o qual simula o percursso de partículas ao redor do LHC para o estudo da estabilidade de suas órbitas. O SixTrack foi a primeira aplicação escolhida a ser executado no ambiente de computação voluntária por requerer uma taxa relativamente baixa de entrada e saída de dados, e também por exigir alto nível de

processamento.

Voltando a abordar o projeto do WLCG (2009), foi visto até o momento que a colaboração entre todas as entidades envolvidas para a constituição da infra-estrutura de Grid

Computing do projeto é fundamental para o seu sucesso. As instituições compartilham seus

recursos para habilitar um ambiente computacional de larga escala com capacidade suficiente para processar os dados do LHC. Entretanto, é importante destacar que essas mesmas entidades também se agrupam em Organizações Virtuais para terem acesso aos dados, característica que ajuda a organizar o ambiente informacional, ditando o que cada uma pode acessar e o que pode ser executado no WLCG.

O WLCG é composto por diversas Organizações Virtuais, entretanto serão destacadas nesta dissertação somente aquelas que são afiliadas ao projeto científico do LHC:

Tabela 3 – Organizações Virtuais filiadas ao LHC (WLCG, 2009)

Conforme citado anteriormente, o projeto do LHC é composto de quatro principais detectores que geram dados diferentes das colisões que acontecem no LHC. O conceito de OV foi utilizado no WLCG para organizar os dados gerados por cada detector com o objetivo de garantir a segurança e a transparência do ambiente informacional.

De acordo com a Tabela 3, percebe-se que para cada coletor existe uma Organização Virtual, ou seja, um meio de isolar os dados para que somente aqueles que têm permissão possam acessá-los, mesmo sendo disponibilizados em uma infra-estrutura compartilhada. Ainda existe uma OV para o SixTrack e também outra para o time de deployment do WLCG.

No documento PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC-SP (páginas 88-95)