• Nenhum resultado encontrado

Bancos de Dados Avançados

N/A
N/A
Protected

Academic year: 2021

Share "Bancos de Dados Avançados"

Copied!
55
0
0

Texto

(1)

Bancos de Dados

Avançados

DCC030 - TCC: Bancos de Dados Avançados (Ciência Computação)

DCC049 - TSI: Bancos de Dados Avançados (Sistemas Informação)

DCC842 - Bancos de Dados (Pós-Graduação)

MIRELLA M. MORO

(2)
(3)

Sobre Mirella Moura Moro

Graduação, Mestrado @ UFRGS

Doutorado @ University of California, Riverside

Professora Associada @ DCC/UFMG

PPGCC/UFMG

Bolsista CNPq

etc etc etc

(4)

Linhas de pesquisa

Dados de/para Redes Sociais

Redes Sociais Acadêmicas, Esporte,

Desenv. Colab de Sw, Música, etc

Índices de Desempenho

Sistemas de Recomendação

Gerência de dados da Web

Processamento de Consultas

Outros

NoSQL

BigData

Data Science

4

SIG

M

OD

’16

- S

FO

SIG

M

OD

’13

- N

YC

SIG

M

OD

’12

- P

HX

BDA - profa. Mirella MMoro

WI

’17

- L

(5)

Sobre esses Slides

Disponíveis na webpage

www.dcc.ufmg.br/~mirella/

DCCbda

/pdfs

NÃO são suficientes!

Slides em inglês são provenientes das disciplinas de

banco de dados da Stanford University, escritos pelo

profs. Jeff Ullman e Hector Garcia-Molina

(a menos que

tenha um M ao lado do número do slide)

(6)
(7)

Definição

(8)

http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html

https://www.import.io/post/why-data-scientist-is-being-called-the-sexiest-job-of-the-21st-century/

8 BDA - profa. Mirella MMoro

(9)

9 BDA - profa. Mirella MMoro

(10)
(11)
(12)
(13)
(14)

TI Geral

Diretor:

R$ 18.386

Gerente:

R$ 8.855

Coordenador:

R$ 4.992

Consultor:

R$ 4.483

Analista Negócios: R$ 4.037

Analista:

R$ 2.432

Técnico em TI:

R$ 1.483

Redes de Computadores, analista: R$ 2.797

Processamento de dados, analista: R$ 2.646

Programador, android:

R$ 3.126

Segurança da informação, pleno:

R$ 3.184

Bancos de Dados

Gerente:

R$ 11.940

Coordenador: R$ 8.953

Supervisor: R$ 8.154

DBA Oracle: R$ 4.288

DBA Pleno: R$ 4.283

DBA SQL:

R$ 3.725

Quanto Ganha Profissional de TI

(15)

Os salários, por áreas de atuação, também sobem na

medida da qualificação do profissional. Além da experiência,

ditada por anos de trabalho no setor, a formação acadêmica

também pode significar um incremento importante no

salário.

Um profissional

de Arquitetura da Informação

com

mestrado ou doutorado pode ganhar até 74,7% mais do

que um que possui apenas formação superior.

(16)

http://exame.abril.com.br/revista-exame/edicoes/1108/noticias/para-os-cientistas-de-dados-nao-ha-desemprego

16 BDA - profa. Mirella MMoro

(17)
(18)
(19)

BDA - profa. Mirella MMoro 19

(20)

BDA - profa. Mirella MMoro 20

CARGO

Jr

Pl

Sr

Desenvolvedor Mobile

88

115

186

Gerente Projeto TI

114

171

213

Engenheiro de Software

114

145

173

Especialista Infraestrutura

114

171

235

Engenheiro Segurança Redes

114

180

217

Cientista de Dados

114

171

196

Consultor SAP

115

145

255

Desenvolvedor Web

115

145

186

Arquiteto de Sistemas

125

150

203

Especialista em BI

125

145

172

Gerente TI

168

215

270

Diretor Desenvolvimento

260

301

415

Gerente Infraestrutura

260

306

410

CTO

279

353

493

CIO/Diretor TI

353

496

710

Diretor Infraestrutura

361

499

710

COO/Diretor Operações

369

500

712

Jr 4-8 anos de experiência

Pl 8-12 anos de experiência

Sr 12+ anos de experiência

Salário *anual* em mil reais/mês, média entre mínimo

e máximo apresentados na matéria

Diferente dos outros segmentos

pesquisados, os profissionais de TI

devem ganhar salários mais altos em

2018, comparando com ano anterior.

O perfil mais buscado é técnico,

mão-na-massa, mas com capacidade de gestão,

segundo a equipe da consultoria.

Pesquisa divulgada pelo Site Exame

indica que cientistas de dados,

profissionais de segurança da

informação, de inteligência de negócios, e

arquitetos de soluções são algumas das

profissões

promissoras na área de

tecnologia.

No segmento digital, os principais projetos

de recrutamento buscam “cientistas de

dados, desenvolvedores web de

linguagens específicas e engenheiros de

software, com perfil pessoal diferenciado

e conhecimento de negócios, além, é

claro, do indispensável inglês”, diz o

relatório da Robert Walters.

https://exame.abril.com.br/carreira/salario-em-ti-no-brasil/

(21)
(22)

Objetivo

Esta disciplina visa o estudo de

conceitos avançados de bancos de

dados incluindo

aspectos operacionais em sistemas de bancos de

dados

técnicas para armazenamento

modelagem e consulta a dados estruturados e

semiestruturados

(23)

NÃO é objetivo

Ensinar

Programação em SQL embutido

“Truques” DB2, Oracle, MS SQL Server, …

Implementação interna DB2, Oracle, MS SQL

Embora possam ser vistos no trabalho final

Implementar

Um banco de dados do zero

(embora seja uma

excelente ideia…)

Aplicações de banco de dados

(embora possa ser

feito no trabalho final)

(24)

NÃO é objetivo

Preparar para

Provas de certificação

Provas de concursos

POSCOMP

Desenferrujar OU

“Revisar” conceitos

Ter mais chances de entrar no PPGCC

(25)

Objetivo (de novo)

Esta disciplina visa o estudo de

conceitos

avançados

de bancos de dados incluindo

aspectos operacionais em sistemas de bancos de dados

técnicas para armazenamento

modelagem e consulta a dados estruturados e semiestruturados

(26)

Programa

1. Revisão dos conceitos básicos de banco de dados.

2.

Armazenamento

de dados: organização de arquivos, índices em árvore e hash

3. Processamento de

consultas

: ordenamento externo, avaliação de operadores

relacionais, tradução de SQL para álgebra, seletividade e estimativa de custo,

otimizador típico

4. Processamento de

transações

: transação e conceitos do sistema, propriedades

ACID, agendamento de transações, suporte em SQL

5. Controle de

concorrência

: gerenciamento de bloqueios, protocolos de controle

de concorrência

6.

Recuperação

de falhas: conceitos de recuperação, ARIES, log, protocolo de

logs, pontos de verificação, backup e recuperação

7.

Segurança

e

integridade

8.

DEMAIS CONCEITOS ATUAIS (XML/NoSQL, Recomendação, Redes Sociais ...)

(27)

Detalhes…

Avaliação

Exercícios e Participação: 35 pontos

2 exercícios online + 1 apresentação artigo

Trabalho Final Apresentação: 25 pontos

pode ser em dupla, nota individual

Trabalho Final Escrito: 40 pontos

pode ser em dupla, nota individual

Bibliografia

G-Molina, Ullman, Widom: Database Systems: The Complete Book. 2001/2008.

Elmasri, Navathe: Sistemas de Banco de Dados, 2010.

Ramakrishnan, Gehrke: Database Management Systems. 2003.

Silberchatz, Korth, Sudarshan: Database Systems Concepts, 2005.

(28)

Introduzindo

Programa de milhagens BDA

Você acumula pontos [participação + extra]

Participando de discussões (saber seu nome)

Escrevendo no quadro as respostas para exercícios

Fazendo exercícios e entregando

(29)

PREENHER O QUESTIONÁRIO

antes da próxima aula

(de preferência)

goo.gl/85F43p

BDA - profa. Mirella MMoro 29

(30)

Cronograma: SERÁ ADAPTADO ~tamanho turma

BDA - profa. Mirella MMoro 30

19.03

Discussão Trabalhos Finais

09.04

Atualidades 1: Jupyter

11.04

Atualidades 2: Datawarehousing

16.04

Escrita e Apresentação de artigos

18.04

FERIADO Páscoa

23.04

Seminários CIDR 2019

25.04

Seminários CIDR 2019

07.05

Acompanhamento Seminários

09.05

Exercícios online com consulta

11.06

Seminários Trabalho Final

13.06

Seminários Trabalho Final

18.06

Seminários Trabalho Final

20.06

FERIADO Corpus Christi

25.06

Atividade avaliação interativa

(31)

Trabalho Final

Desenvolvimento

Pesquisa

Pode auxiliar em trabalho de outra disciplina

Pode auxiliar em dissertação ou tese de pós

Pode auxiliar ou gerar POC/Monografia 1 e 2

Pode gerar publicação científica

(32)

Trabalho Final

pode virar publicação científica

SBBD 2019 @ Fortaleza 7-10/out

JIDM: mensal

Posteres/Demo: 05/julho

WebMedia 2018 @ R.Janeiro 29/out-1/nov

Artigo completo: 07/maio

Artigo curto: 14/julho

>>> Pode virar também POC, Monografia, Dissertação

(33)

Trabalho Final

19.03 Discussão Trabalhos Finais

07.05

Acompanhamento Seminários

11.06 Seminários Trabalho Final

13.06 “

18.06 “

(34)

Para Incentivar a Pesquisa

Seminários para trabalhos publicados CIDR 2019 e

SIGMOD 2018 (selecionados)

Biennial Conference on Innovative Data Systems

Research – top top top

ATIVIDADE

Escolher um artigo publicado e marcar como seu

https://goo.gl/S10j8C

(planilha CIDR + SIGMOD)

http://cidrdb.org/cidr2019/program.html

(PDF + slides)

Ler e entender (contexto, problema, solução, avaliação)

Preparar a apresentação (ou pegar a pronta)

Reduzir para 10 minutos (depende # trabalhos)

Apresentar para a turma 23 ou 25/04

(35)
(36)

Do You Know SQL?

Explain the difference between:

SELECT b

FROM R

WHERE a<10 OR a>=10;

and

SELECT b

FROM R;

(37)

And How About These?

SELECT a

FROM R, S

WHERE R.b = S.b;

SELECT a

FROM R

WHERE b IN

(SELECT b FROM S);

(38)

POR MOODLE/AULA

até 19/03 @ 09hs

Explique a diferença entre

(a)

SELECT b

FROM R

WHERE a<10 OR

a>=10;

e

(b)

SELECT b

FROM R;

(c)

SELECT a

FROM R, S

WHERE R.b = S.b;

e

(d)

SELECT a

FROM R

WHERE b IN

(SELECT b FROM S);

(39)

Interesting Stuff About Databases

It used to be about boring stuff: employee

records, bank records, etc.

Today, the field covers all the largest sources

of data, with many new ideas.

Web search

Data mining

Scientific and medical databases

Integrating information

(40)

Still More …

You may not notice it, but databases

are behind almost everything you do

on the Web

Google searches

Queries at Amazon, eBay, etc.

(41)

And More…

Databases often have unique

concurrency-control problems

Many activities (transactions) at the database at

all times

Must not confuse actions, e.g., two withdrawals

from the same account must each debit the

account

(42)

Banco de

Dados

Avançados

(43)

Databases

[IBD]

Collection of information that exists over a

long period of time, often many years

Collection of data that is managed by a

DBMS:

Create new DBs + specify their schema, DDL

Query data + modify data, DML

Storage of very large amounts of data: durability,

secure, efficient access

Control access to data from N users at once, w/o

conflicts and corrupting data

(44)

Databases = FILES

Early ages

Airline reservation systems

Banking systems

Corporate records

(45)

Databases = RDBMS

IBD (DCC011)

Relations = Tables

SELECT balance

FROM Accounts

WHERE accountNo = 67890;

1.Examine all tuples from Accounts [FROM]

2.Pick out those that satisfy criteria [WHERE]

3.Produce answer with specific attributes of

those tuples [SELECT]

(46)

Smaller and Smaller Systems

DBMS = large, expensive,

on large computers

↓ ↓ ↓

N giga  1 single disk

DBMS  PC

(47)

Bigger and Bigger Systems

One gigabyte isn’t much data

Corporate = 100s GB

Retail chains = N TB [1000 GB = 10^12b]

INT, CHAR  .JPG, .MP3, .MPG

1h video = 1GB.MPG

Satellite = PB [1000 TB = 10^15b]

Houston, we have a problem 

(48)

Melhor definição ainda…

O que distingue um sistema de BD de

qualquer outro software é:

SBDs assumem que os dados são tantos e

tão grandes que (geralmente)

não cabem

na memória principal e devem ser

alocados primariamente em

disco o

tempo todo

(49)

Smaller / Bigger Systems

Tertiary Storage

Terciary device: more than a disk

Usually transporting an object (storing 

reading)

CD, DVD, clusters

(50)

Smaller / Bigger Systems

Parallel Computing

Store enormous volumes of data  accessing

large amounts of that data quickly

Speed up

Index structures

Parallelism: reading disks in parallel, distributed

system, high-speed network

Store large amount of data + move quickly =

query performance????

(51)

Smaller / Bigger Systems

Store large amount of data + move quickly =

query performance????

Storage + access + algorithms!!

Algorithms: break queries up for parallel /

distributed computers

VERY ACTIVE RESEARCH AREA

(52)

And More

Client-Server and Multi-Tier Architecture

Server = bottleneck

Client  application server (connections,

transactions, authorization, …)

Server  web servers as clients (end-user apps)

Multimedia Data

Information Integration (Web, data

warehouse)

(53)

DBMS

(54)

Finalizando

BD  em tudo

Trabalho final MAIOR

Submissões para N confs, SBBD/JIDM

Trabalho de final de curso graduação

(55)

Mãos à obra !

www.dcc.ufmg.br/~mirella

mirella@dcc.ufmg.br

Referências

Documentos relacionados

Data mining is the process of discovering meaningful correlations, patterns and trends by sifting through large amounts of data stored in repositories. Data mining employs pattern

A NGP em Portugal adotou inúmeras medidas fundamentais, nomeadamente através da incrementação de novos mecanismos de mercado, incorporou técnicas no âmbito da

São inúmeras as razões que os professores utilizam para justificar o facto de privilegiarem apenas o produto textual, destacando, essencialmente, a necessidade de cumprir

Density, Molar Volume, Apparent Molar Volume of these complexes was investigated in non-aqueous solvent at various concentrations by Springel Pyknometer to

Contudo, vários são os estudos que apresentam elevados níveis de iliteracia na sociedade portuguesa (Benavente, 1996) e outros, nomeadamente os resultados do PISA

As taxas de mortalidade padronizadas por câncer de mama foram as mais altas entre as neoplasias, na população de mulheres residentes no município de Juiz de Fora ao longo dos anos

Se não há maior procura ou interesse pela biblioteca por parte dos funcionários, a causa são algumas barreiras: o brasileiro em sua grande maioria, não tem o

Ambos géneros se presentan como formas literarias posmodernas que no han sido vinculadas en el ámbito académico en la actualidad, por lo que aquí proponemos