A utilização de Cloud Computing e Big Data, podem num curto prazo tornar-se: soluções inovadoras, com baixos custos e acessíveis, a possibilidade de efetuar análises ao negócio em qualquer parte do mundo e através de uma qualquer dispositivo móvel ou portátil, torna-.se numa vantagem que permite a criação de soluções económicas e que não exigem nenhuma implementação complicada, devido à simplicidade de utilização.
As aplicações que estão voltadas para a internet normalmente originam uma grande quantidade de dados, os novos sistemas de gestão de dados devem ser capazes de lidar com um grande volume de atualizações.. É importante no entanto destacar o nível de mudança nas aplicações, nomeadamente no que se refere ao design dos sistemas, para que estes novos sistemas alcancem o sucesso (Curino, et al., 2010).
O primeiro passo para a realização deste novo tipo de análises é a definição das bases para uma gestão escalável de dados. É necessário a compreensão desta definição, tendo como foco a projeção de sistemas capazes de interagir com aplicações web, possibilitando a fácil integração dos mesmos com ambientes cloud. Existe dois aspetos que devem ser alvo de destaque tendo em conta o que foi anteriormente descrito (Das, et al., 2010):
Em primeiro lugar o sistema deve possuir um DBMS escalável que permita grandes quantidades de dados.
Em segundo terá que suportar um grande número de aplicações, podendo cada uma das aplicações possuir uma pequena quantidade de dados, sendo que o conjunto das aplicações dará origem a uma grande quantidade de dados, o que fará com que o DBMS além de crescer necessite de ser facilmente adaptado de acordo com as necessidades que aparecam.
A figura 7, procura demonstrar uma perspetiva sobre os diferentes modelos de multi-tenancy.
Os grandes desafios que são colocados ao Big Data, prendem-se com: a gestão de dados de grandes aplicações, que deve ser efetuada de acordo com o modelo de Cloud Computing (Das & Nishimura, et al., 2010).
47 Devido a o crescente aumento da quantidade de dados, tendo em conta estes factos, os sistemas de gestão de dados que trabalham de acordo com o modelo relacional, têm muitas dificuldades em lidar com novos tipos de dados, pois os mesmos aumentam a complexidade do sistema (Dean & Ghemawat, 2004). Desta forma nota-se um crescimento e popularidade de sistemas de código aberto como o Big Table, Hbase, Cassandra, MongoDB entre outros sistemas, que estão atualmente a ser implementados em larga escala principalmente nos modelos de clouds privadas, públicas e híbrida (Chang, et al., 2006). Os sistemas anteriormente referidos têm como base o Not Only Structured Query Language (NoSQL), que é baseado em princípios de conceção como: escalabilidade e fácil comparação com os sistemas relacionais (Reinwald, 2010).
As aplicações em cloud necessitam de apoiar um grande número de aplicações, que são acedidas por diferentes utilizadores. Neste âmbito, importa mencionar, os já falados sistemas multi-tenancy, dos quais é exemplo o SaaS (exemplo: Salesforce.com), que é um sistema no qual muitos utilizadores partilham a mesma tabela de base de dados. Importa referir que existem diferentes modelos de multi-tenancy que revelam diferentes contextos e paradigmas de cloud (Jacobs & Aulbach, 2007).
A utilização de sistemas de análises de dados tem sido anunciado como a próxima evolução no que se refere à inteligência de negócios. Este facto tem como principais impulsionadores os serviços de cloud, que oferecem níveis de agilidade e elasticidade, através de um armazenamento escalável, com um poder de computação e de recursos flexíveis.
O constante crescimento do volume de dados antevê a necessidade de um aumento da utilização de Data Mining, para que se consiga encontrar valor na grande imensidão de informação que está ao nosso dispor.
A utilização de tecnologias como o Hadoop que permitem um escalonamento e distribuição do processamento por vários clusters, torna a solução de Big Data bastante escalável e com capacidade de responder a todas as necessidades que lhe sejam impostas. A adoção em larga escala de uma gestão de
clusters através do Big Data Analytics requer uma variedade de mudanças e uma disponibilidade de sistemas e regras que ajudam no sucesso de utilização e implementação destas soluções nas organizações.
48 A manipulação de Big Data mudou um pouco o paradigma, no sentido em que as análises já não serão restringidas, existe uma inversão completa na gestão de dados em que os sistemas de processamento adicionam um novo modelo de processamento com o processamento paralelo e distribuído em que o A tecnologia MapReduce presente no Hadoop e que apareceu em 2004, quando a Google percebeu as suas vantagens, o que permitiu o desenvolvimento do clustering como uma forma de resolver problemas associados as grandes quantidades de dados através de um modelo de processamento paralelo.
Existem ainda algumas incompatibilidades entre as ferramentas de BI e o MapReduce o principal problema está em adequar o modelo relacional ao MapReduce. No entanto podem existir ratefas de conversão através da utilização do Hive e da combinação de processamentos MapReduce com as ferramentas BI existentes (ex: Hortonworks e Cloudera).
49
3 – Arquitetura do Sistema de Análise de Dados Big Data no Modelo Cloud
Computing
Este capítulo descreve o desenvolvimento da arquitetura de análise de dados Big Data no modelo de
Cloud Computing que será explicada recorrendo a dois modelos:
1. Arquitetura Conceptual: descreve os níveis que constituem a arquitetura e a explicação das atividades que são realizadas em cada um dos níveis. Esta arquitetura é apresentada na secção