• Nenhum resultado encontrado

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

N/A
N/A
Protected

Academic year: 2021

Share "BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt"

Copied!
17
0
0

Texto

(1)

BIG DATA:

UMA INTRODUÇÃO

Prof. Ronaldo R. Goldschmidt

Instituto Militar de Engenharia

Seção de Engenharia de Computação (SE/8)

(2)

Grandes Desafios da Pesquisa em Computação no Brasil (SBC, 2006)

Gestão da Informação em Grandes Volumes de Dados Multimída Distribuídos

POSICIONAMENTO E MOTIVAÇÃO

Vários formatos: texto, imagem, vídeos, sons, gráficos, etc...

21% 33% 22%24% 21% 47%45%49% 57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2 21% 33% 22%24% 21% 47%45%49% 57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2 21% 33% 22%24% 21% 47%45%49% 57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2

(3)

Grandes Desafios da Pesquisa em Computação no Brasil (SBC, 2014)

Gestão da Informação em Grandes Volumes de Dados Multimída Distribuídos

POSICIONAMENTO E MOTIVAÇÃO

Ciência de Dados

Astronomia

Biologia

Defesa

Educação

Energia

Engenharia

Esporte

Física

Saúde

Etc...

Computação:

• Gerência de Dados

• Análise de Dados

Temas Relacionados:

• Workflows Científicos

• Procedência de Dados

• Web Semântica

• Mineração de Dados

• Etc...

(4)

• Não existe consenso quanto à definição.

• Guarda-Chuva que abriga fundamentos, conceitos e tecnologias

voltadas à gestão e análise de grandes volumes de dados.

• Questões prioritárias no contexto de Big Data: 3Vs / 5Vs

– Volume

– Velocidade

– Variabilidade de forma e conteúdo

– Valor

– Veracidade

FUNDAMENTOS E CONCEITOS BÁSICOS

(5)

• Assunto fortemente relacionado ao Big Data.

• Também não existe consenso quanto à definição.

• “NoSQL é um conjunto de conceitos e tecnologias relacionados a

desempenho, confiabilidade e agilidade que permitam processamento

rápido e eficiente de coleções de dados.” (McCreary e Kelly, 2014)

• Provê contraponto aos SGBDRs tradicionalmente encontrados nas

empresas durante as últimas décadas.

• Não significa exclusão do uso de recursos de SGBDRs e SQL.

FUNDAMENTOS E CONCEITOS BÁSICOS

(6)

• Ambientes NoSQL – Características Principais:

– Armazenam e recuperam dados em vários formatos.

– Permitem recuperações de dados sem a realização de junções de estruturas de dados.

– Permitem a distribuição (com ou sem replicação) de bases de dados em múltiplos processadores que podem ou não estar na nuvem computacional e, apresentar ou não memória compartilhada.

– Permitem distribuição de processamento, obtendo, em geral, escalabilidade linear em relação ao número de processadores.

• BASE vs ACID: Ambientes NoSQL admitem inconsistência

temporária de dados em prol de sua alta disponibilidade (24 x 7)

• Para vantagens e desvantagens de NoSQL, vide: Mohan (2013) e

Wayne (2012)

FUNDAMENTOS E CONCEITOS BÁSICOS

(7)

• Pares do Tipo Chave-Valor (Key-Value Stores)

– Cadeia de símbolos (chave) leva a um blob de dados arbitrariamente grande (valor)

– Não possuem linguagens de consulta específicas

– São indexados por chaves que permitem o acesso direto aos dados – Valores podem ser de qualquer tipo de dados

– Vantagem: simplicidade de estrutura: economia de tempo e recursos – Exemplos de ambientes que utilizam este padrão:

• Cassandra • Dynamo • Voldemort • Riak

FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL – Padrões Arquiteturais de Dados

Chave Valor

Imagem123.jpg Arquivo binário contendo a imagem www.ime.eb.br HTML de uma página web

(8)

• Bases de Dados de Grafos (Graph Stores)

– Armazenamento e recuperação de informações em grafos – Dados são triplas: vértice-relacionamento-vértice

– Vértices e relacionamentos podem conter propriedades

– Informações podem estar contidas em vértices ou na estrutura dos grafos

– Forte aplicação: modelagem de redes complexas como as redes sociais, por ex. – Oferecem linguagens de consulta específicas. Ex: Cypher (Neo4j)

– Exemplos de BDs de grafos:

• Neo4j

• Allegro Graph • DEX

• Infinite Graph

FUNDAMENTOS E CONCEITOS BÁSICOS

(9)

• Bigtables (Column-Oriented Stores)

– Admitem chaves complexas, formada por duas ou mais informações.

– Campo ColumnFamily agrupa as colunas indicadas em ColumnName.

– Timestamp associa aspecto temporal às informações (versionamento dos dados) – Permite armazenar matrizes esparsas de alta dimensionalidade

– Também dispensa o uso da operação de junção – Exemplos de ambientes que utilizam este padrão:

• Cassandra • HBase • Hypertable

FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL – Padrões Arquiteturais de Dados

Row-ID ColumnFamily ColumnName TimeStamp Valor ---

(10)

• Coleções de Documentos (Document Stores)

– Cada documento corresponde a uma árvore.

– Conteúdo da árvore pode ser acessado via linguagem apropriada (ex: SPARQL) – JSON e XML são exemplos de formatos de apresentação de documentos

– Exemplos de sistemas de gestão de documentos:

• MongoDB • RavenDB • CouchDB

FUNDAMENTOS E CONCEITOS BÁSICOS

(11)

• Modelo de programação: processa grandes volumes de dados em paralelo

– “Proposto” pela Google em 2004.

– Exemplo que ilustra o funcionamento do MapReduce:

• Distribuição da tarefa de contagem da população de Roma por regiões. • A contagem em cada conjunto ocorre em paralelo.

• Dados levantados são consolidados no número final

– Outro exemplo:

FUNDAMENTOS E CONCEITOS BÁSICOS

MapReduce

No fim de cada iteração, é realizada a soma das frequências locais de cada conjunto de itens, o que resulta na frequência global de cada um deles.

Chave Valor 1 [a, é, o]

2 [No, de, de, de, de, na, um] 3 [das, que, fim]

4 [soma, cada, cada, cada] 5 [itens, deles] 6 [locais, global] 7 [resulta] 8 [iteração, conjunto] 9 [realizada] 10 [frequência] 11 [frequências] Chave Valor 1 3 2 7 3 3 4 4 5 2 6 2 7 1 8 2 9 1 10 1 11 1

(12)

• Projeto da Fundação Apache

– Oferece framework para operações paralelas em grandes volumes de dados. – Funciona sobre sistema de arquivos organizados em clusters distribuídos. – Se baseia no paradigma do MapReduce.

FUNDAMENTOS E CONCEITOS BÁSICOS

(13)

Necessidade:

Ferramentas inteligentes que auxiliem na análise de dados e na busca

por conhecimentos em GRANDES conjuntos de dados (nos mais

diversos formatos).

Análise de Dados

FUNDAMENTOS E CONCEITOS BÁSICOS

Mineração de Dados

(Data Mining)

Descoberta de Conhecimento

em Bases de Dados (KDD)

(14)

“É um processo, de várias etapas, não trivial, interativo e

iterativo, para identificação de padrões compreensíveis,

válidos, novos e potencialmente úteis a partir de grandes

conjuntos de dados.” (Fayyad et al., 1996)

Descoberta de Conhecimento em Bases de Dados – KDD

Dados Estruturados

Modelo de Conhecimento

Pré-Processamento Mineração de Dados Pós-Processamento

Etapas Operacionais do Processo de KDD

Etapas Operacionais do Processo de KDD

Especialista em KDD Especialista em KDD Especialista de Domínio Especialista de Domínio Interação Iteração

(15)

“BUSCA” VS “DESCOBERTA”

Data

Mining

Data

Retrieval

Information

Retrieval

Busca

Descoberta

Dados

estruturados

Dados não-estruturados

(Texto)

Text

Mining

(16)

Há vários tipos de “mining” :

Data Mining

Multimídia Mining (Som, Imagem, …)

Text Mining

Graph Mining

Web Mining

Educational Data Mining (EDM)

Social Data Mining

Opinion Mining

...

Terminologia acima não é um consenso.

(17)

DESCOBERTA DE CONHECIMENTO - UMA TAXONOMIA

Descoberta de Conhecimento

Dados Estruturados Dados Textuais Dados Multimídia

Mineração de Dados Clássica Mineração de Dados Textuais Mineração de Dados Multimídia 21% 33% 22%24% 21% 47%45%49%57%56% 23% 14% 24% 13% 17% 6% 6%4%5%5% 1% 0%0%1%0% -10% 0% 10% 20% 30% 40% 50% 60% 70% Até 3 salários mínimos De 4 a 8 salários mínimos De 9 a 15 salários mínimos De 16 a 25 salários mínimos De 26 a 30 salários mínimos 2005-2 2006-1 2006-2 2007-1 2007-2

Referências

Documentos relacionados

Do mesmo modo que o comprimento de um segmento de reta, a sua direção e a sua orientação no espaço representam uma série de grandezas físicas, chamadas então

> 04 noites de hotel em Istambul com café da manhã em apartamento duplo (02 pessoas por apto); > 03 noites de hotel em Kathmandu com café da manhã em apartamento duplo

Appraising the outcome and complications of peritoneal dialysis patients in self-care peritoneal dialysis and assisted peritoneal dialysis: A 5-year review of a single Saudi center

Para caracterizar os impactos socioambientais e danos/prejuízos decorrentes do desastre, no município de Florianópolis, foram utilizados como base, os dados do

• Para ocorrerem rupturas em políticas é necessário que haja uma mudança de percepção da imagem pública. • Isso pode ser causado por dois

Os docentes relatam um reduzido envolvimento por parte dos alunos no seu processo de aprendizagem, nos domínios emocional, cognitivo e comportamental, sendo

No modo desativado o roteador transmitirá apenas sinal de conexão apenas via cabo UTP  SSID: insira um nome de sua escolha para a rede WI-FI..  Criptografia: insira uma senha para

Considerando os resultados deste estudo, sugerimos novas investigações acerca do conhecimento dos professores de musculação, já que, como demonstrado, há um