TECNOLOGIAS PARA BIG DATA - B-HEALTH ANALYTICS

3.1 INTRODUÇÃO

A escolha para um bom aproveitamento dos dados recolhidos nas diferentes áreas prende-se pela utilização de usar bases de dados do modo tradicional, bases de dados relacionais (MS SQL, MY SQL, ORACLE, etc.), bases de dados essas limitadas por capacidade de armazenamento e escalonamento vertical ou a utilização de bases de dados voltadas para os grandes volumes de dados, Big Data, bases de dados não relacionais ou noSQL (MongoDB, Cassandra, Amazon SimpleDB, Neo4J, InfiniteGraph, etc.).

As bases de dados isoladas não são por elas só uma solução, eles têm de estar bem definidas dentro de um conjunto de tecnologias de integração, processamento e extração de dados.

Para isso a utilização de tecnologias de processamento em tempo real com uma alta taxa de disponibilidade e processamento vêm fazer com que todo o processo de rentabilidade da performance das bases de dados seja coerente com conceito de Big Data, Business Intelligence e Business Analytics.

Várias empresas têm vindo a utilizar as bases de dados noSQL em detrimento das bases de dados relacionais para proporcionar a escalabilidade horizontal dos sistemas.

3.1.1 BASES DE DADOS NOSQL

Uma base de dados noSQL entende-se como um sistema de base de dados não-relacional e de certa forma distribuída, que permite o armazenamento de grande volume de dados, com maior velocidade e variedade de tipos de dados. As bases de dados noSQL são muitas vezes referidas como bases de dados em nuvem, bases de dados não relacionais, base de dados de Big Data e foram desenvolvidos para dar resposta à definição de Big Data e à consequência do grande volume de dados que estão a ser gerados, armazenados e analisados por utilizadores modernos (

user-generated data) e suas aplicações (machine-generated data) (“NoSQL Databases Defined &

Segundo o mesmo autor, as vantagens das bases de dados não relacionais estão na própria definição do conceito de Big Data, sendo a sua implementação e utilização pelo mercado empresarial, o aproveitando o fator dos recursos como:

• O alto processamento em velocidade de dados, grandes volumes de dados que vêm muito rapidamente a partir de diferentes locais;

• A variedade de dados, o armazenamento de dados que podem estar estruturados, semiestruturados ou não estruturados.

• O volume de dados, dados que envolve muitos terabytes ou petabytes de tamanho.

• A complexidade dos dados, os dados que são armazenados e gerados em diferentes locais.

• Os dados armazenados passaram de uma tipologia tipicamente estruturados, para uma tipologia de não estruturados ou semiestruturados.

Fig. 34 – Exemplo de tipos de bases dados noSQL

Existe no mercado diferentes tipos de bases de dados noSQL, Column Store (exemplo, Redis, Amazon SimpleDB, Riak, Aerospike), Document Store (exemplo Couchbase, MongoDB, Marklogic),

Key-Value (exemplo, Cassandra, Apache Hbase, Hypertable, Amazon SimpleDB, Accumulo) e

Graph Databases (exemplo, Neo4J, InfiniteGraph) (Fig. 34).

Estes diferentes tipos têm uma diferente abordagem para as implementações resolvendo os problemas de distribuição, transações, mineração e a infraestrutura computacional de nuvem (Vieira, Figueiredo, Liberatti, & Viebrantz, 2012).

Fig. 35 - Evolução dos dados (Connolly, 2012)

O que as bases de dados noSQL permite é uma disponibilidade continua dos dados, uma independência do local onde eles se encontram, uma flexibilidade nos modelos de dados e uma utilização estratégica de análise de dados integrados que fornece uma compreensão instantânea de vários conjuntos de dados complexos (Fig. 35) e possibilitam facilitar uma tomada de decisão mais flexível (“NoSQL Databases Defined & Explained,” n.d.) esta necessidade de uma integração numa arquitetura vai permitir com que o modelo conceptual tire partido das suas vantagens.

3.1.2 PROCESSAMENTO DOS DADOS (Streaming)

Conforme referenciado em capítulos anteriores, em que o valor dos dados tem cada vez mais um papel importante na tomada de decisão nas organizações, existe uma necessidade cada vez maior de os disponibilizar em tempo real. Para isso os sistemas de informação têm de estar preparados com tecnologias que os possa obter das fontes e posteriormente os disponibilizar ao utilizador final. Para isso o processamento de dados em tempo real ou streaming são uma ferramenta essencial em todo o processo de um modelo arquitetural de tratamento de dados.

Os dados em streaming são dados gerados continuamente por milhares de fontes de dados, que geralmente enviam os registros de dados simultaneamente, em tamanhos pequenos (na ordem dos kilobytes). Os dados em streaming (Fig. 36) incluem uma ampla variedade de dados, como arquivos de log gerados por clientes usando seus aplicativos móveis ou da web, compras de e-commerce, atividade de jogador durante o jogo, informações de redes sociais, pregões financeiros ou serviços

geoespaciais, como também telemetria de serviços conectados ou instrumentação em datacenters (amazon.com, n.d.).

Fig. 36 – Exemplo de processamento em Streaming (Luiz Henrique Zambom Santana, 2016)

Na saúde com o aumento da monotorização através de equipamentos de saúde obriga as instituições e os profissionais de saúde em terem disponibilizados os dados em tempo real para dar resposta em tempo útil para uma avaliação, prescrição ou tratamento dos seus pacientes. Uma rápida resposta obtida através de uma disponibilização de dados pode ditar entre uma vida ou uma morte, uma epidemia ou uma neutralização de doenças.

3.1.3 COMUNICAÇÃO E INTEGRAÇÃO DOS DADOS

Um dos paradigmas nos sistemas distribuídos é a comunicação indireta de dados entre entidades numa arquitetura de um sistema.

A comunicação indireta é definida como comunicação entre entidades em um Sistema distribuído através de um intermediário sem acoplamento direto entre o remetente. Muitos paradigmas de comunicação indiretos suportam explicitamente uma comunicação de um para muitos (Coulouris, Dollimore, & Kindberg, 2005).

Fig. 37 - Integração de dados

Por outro lado, a verdadeira integração de dados ou integração de banco de dados (Fig. 37) implica a capacidade de aceder a qualquer fonte de dados e usar essas informações em praticamente qualquer aplicativo ou sistema. Os dados podem ser armazenados em formatos de banco de dados relacionais ou não relacionais / hierárquicos, como Oracle, DB2, SQLServer, MySQL, Essbase, FOCUS db e VSAM e em sistemas ERP como o SAP.

O acesso aos dados geralmente é na forma de uma consulta, sistema de relatórios ou painel de bordo, mas também pode incluir recursos de atualização e pode acontecer em massa, em tempo real ou em tempo real próximo (Chris Boylan, n.d.).

Mas com a produção de dados não estruturados, há a necessidade na comunicação e a integração de dados, nomeadamente imagens, multimédia e documentos de vários tipos (texto, XML, JSON, EXCEL, etc.).

Pelo apresentado à temática deste trabalho, a escolha de uma base de dados que se adapta ao cada vez mais crescente aumento do volume de dados (Fig. 1), a utilização de um padrão de dados que visa a representação semântica da informação de forma a tornar os dados escalonados e estruturados, com a aplicação das técnicas e das ferramentas de integração, processamento e tratamento de dados fará desta forma com que a criação de um sistema analítico baseado na abordagem Big Data tenha um papel fundamental para a extração do que é mais importante a quando o registo de um dado, o seu valor atual e futuro para a tomada de decisão.

4 B-HEALTH ANALYTICS – SISTEMA ANALÍTICO PARA A SAÚDE

No documento B-HEALTH ANALYTICS (páginas 64-69)