• Nenhum resultado encontrado

Estatística e Modelos Probabilísticos - COE241

N/A
N/A
Protected

Academic year: 2021

Share "Estatística e Modelos Probabilísticos - COE241"

Copied!
40
0
0

Texto

(1)

Estatística e Modelos

Estatística e Modelos

Probabilísticos -

Probabilísticos -

COE241

COE241

Rosa M. M. Leão

Segundo semestre de 2018 UFRJ - COPPE

Programa de Engenharia de Sistemas e Computação

(2)

Rosa Leão ­ 2018

O que é probabilidade e

O que é probabilidade e

estatística ?

estatística ?

Por que é importante ?

(3)

Definição:

É o estudo das regras matemáticas que governam os eventos aleatórios

O que é aleatoriedade ?

Informalmente, um evento aleatório é um evento que não sabemos o resultado sem observá-lo

A probabilidade nos fornece informações sobre estes eventos

O que é probabilidade ?

(4)

Rosa Leão ­ 2018

Definição:

Estatística é a ciência que define como realizar a coleta e análise de dados

aleatórios

Estatística é usada para: Projetar experimentos

Explorar/analisar dados complexos

Tirar conclusões a partir de análise de dados

O que é estatística ?

(5)

“Probability deals with predicting the

likelihood of future events, while statistics involves the analysis of the frequency of past events.”

Probabilidade x Estatística

(6)

Rosa Leão ­ 2018

Aplicações de probabilidade e

Aplicações de probabilidade e

estatística

(7)

Aplicações de probabilidade e

Aplicações de probabilidade e

estatística

(8)

Rosa Leão ­ 2018

O que é big data analytics ?

O que é big data analytics ?

Big data analytics is the process of examining large data sets to uncover hidden patterns, unknown

correlations, market trends, customer preferences, etc.

The primary goal of big data analytics is to help

companies make more informed decisions by enabling data scientists, predictive modelers to analyze large

(9)

O que é big data analytics ?

O que é big data analytics ?

It includes the analysis of:

Web server logs and Internet data,

Social media content and social network activity reports,

Text from customer emails and survey responses, Mobile-phone call detail records,

Machine data captured by sensors connected to the Internet of Things.

(10)
(11)

Mo Zhou was snapped up by I.B.M. last summer, as a

freshly minted Yale M.B.A., to join the technology company’s fast-growing ranks of data consultants. They help

businesses make sense of an explosion of data.

To exploit the data flood, America will need many more like her. A report last year by the McKinsey Global Institute, the research arm of the consulting firm, projected that the United States needs 140,000 to 190,000 more workers with “deep analytical” expertise.

(12)

Rosa Leão ­ 2018

At the World Economic Forum in Davos, Switzerland, Big Data was a marquee topic. A report by the forum, “Big Data, Big Impact,” declared data a new class of economic asset, like currency or gold.

The wealth of new data accelerates advances in computing — a virtuous circle of Big Data. Machine-learning algorithms, for example, learn on data, and the more data, the more the machines learn.

(13)
(14)

Rosa Leão ­ 2018

Agências de todo o mundo, inclusive do Brasil,

reorganizam-se para processar terabytes de dados em tempo real na busca pelo consumidor certo, na hora

certa.

Pouco tempo atrás, agências dependiam de

intermediários na indústria de internet (sobretudo a

Google) para explorar essas informações. A mudança de agora é que firmas de publicidade estão se

transformando em verdadeiras start-ups, contratando cientistas e desenvolvendo softwares.

(15)

A segunda maior agência em operação no Brasil, a Ogilvy, emprega 20 profissionais na criação de

modelos matemáticos para orientar suas

estratégias. Em vez de publicitários, muitos são estatísticos e matemáticos. Cabe a eles analisar

informações como a audiência de sites, o desempenho de propagandas já veiculadas na internet, comentários em redes sociais etc.

A tendência dá à luz empresas exclusivamente dedicadas à analise de dados para o setor de

marketing. Um exemplo é a R18, cujos softwares

monitoram redes sociais para saber o que vem sendo dito sobre clientes e qual o potencial de um conceito publicitário junto ao público.

(16)

Rosa Leão ­ 2018

Yet data is merely the raw material of

knowledge. “We’re rapidly entering a world where everything can be monitored and

measured,” said Erik Brynjolfsson, an economist

and director of the Massachusetts Institute of Technology’s Center for Digital Business.

“But the big problem is going to be the ability of humans to use, analyze and make sense of the data.”

(17)

Statisticians also caution that strong correlations of data do not necessarily prove a cause-and-effect link.

For example, in the late 1940s, before there was a polio vaccine, public health experts in America noted

that polio cases increased in step with the consumption of ice cream and soft drinks, according to David Alan Grier, a historian and statistician at George Washington University. Eliminating such treats was even

recommended as part of an anti-polio diet. It turned out that polio outbreaks were most common in the hot

months of summer, when people naturally ate more ice cream, showing only an association, Mr. Grier said.

(18)
(19)
(20)

Rosa Leão ­ 2018

Previsão Copa do Mundo 2018

(21)

Explosion of digital data

network measures

Sophisticated Meaningful patterns

sensor signals, user behaviour

surveillance tapes social network data

public records

Motivação

(22)

Rosa Leão ­ 2018

A quantidade de dados armazenados na Web é um enorme banco de dados que permite que novas descobertas/análises sejam feitas de maneira automatizada

Novas tecnologias permitem fácil coleta de diferentes tipos de dados (sensores, webcam, log de ações do usuário)

Os dados na Web são um enorme recurso para observar como milhares de pessoas interagem, suas preferências, seu comportamento, suas necessidades

Aplicações podem ser desenvolvidas de acordo com as

preferências, as necessidades e o comportamento do usuário Dados coletados de sistemas permitem melhor planejamento, desempenho e análise da confiabilidade

Motivação

(23)

Exemplos de Aplicação

Exemplos de Aplicação

Sistemas de recomendação Planejamento da rede Sugestão de produtos, filmes, músicas, amigos

Sugestão de tópicos a serem estudados, exercícios, outras aulas Demanda dos usuários Dados coletados Capacidade instalada

(24)

Rosa Leão ­ 2018

Exemplos de Aplicação

Exemplos de Aplicação

Sistemas de inferência Planejamento do sistema de computadores de bordo de um avião

População com maior probabilidade de ter um certo

tipo de doença

Tipo de medicamento que surte mais efeito em uma dada

população Requisitos: Probabilidade de falha do Sistema < 10-12 HW/SW do Sistema Arquitetura do Sistema Dados clínicos dos pacientes Medicamentos usados

(25)

Objetivo do Curso

Objetivo do Curso

Aprender conhecimentos básicos de

estatística e probabilidade e como a teoria pode ser usada no estudo e avaliação de sistemas/fenômenos aleatórios

Como?

Como?

Como?

Como?

Construir modelo probabilístico e calcular estatísticas de um sistema/população para analisar/estudar/prever seu desempenho

(26)

Rosa Leão ­ 2018

Por que usar probabilidade ?

Por que usar probabilidade ?

A maioria dos eventos que ocorrem nos sistemas/vida real são aleatórios

Exemplo:

Tempo de busca no Google

Perda de um pacote em um roteador da Internet

Tempo até que ocorra uma falha em um computador

Tempo de acesso ao Skype

(27)

Por que usar estatística ?

Por que usar estatística ?

Permite a caracterização de uma população ou de um sistema a partir de um conjunto de amostras

Exemplo:

Qual a variável que mais influencia na detecção de anomalia em um sistema ? Qual o erro que é cometido quando

considera-se um conjunto de amostras de tamanho N ?

(28)

Rosa Leão ­ 2018

Algumas áreas onde a teoria é

Algumas áreas onde a teoria é

usada

usada

Estatística e

Probabilidade

Processos

Estocásticos

Simulação

Medições

Teoria de

Filas

Aprendizado

por

Máquina

Inferência

(29)

Importância

Importância

Prever desempenho/comportamento de um sistema

Identificar gargalos de um sistema

Avaliar mudanças no sistema

Inferir o comportamento de um sistema a partir de uma pequena amostra de dados coletada

Adequar o sistema às necessidades dos clientes Modelagem é fundamental para muitos sistemas Google, Facebook, NASA, Sprint (ISP), Empresas fabricantes de aviões, etc.

(30)

Rosa Leão ­ 2018

Exemplo de estudo (1)

Exemplo de estudo (1)

Tempo de resposta de um sistema deve estar abaixo de um limite com uma certa probabilidade e sua média não deve ser superior a um certo valor

Cálculo da frequência (histograma) Cálculo da média: 5*0.08 + 10*0.03 + 20*0.01 + 30*0.08 + 40*0.09 + 50*0.06 + 60*0.12 + 70*0.11 + 80*0.22 + 90*0.14 + 100*0.06 = 61

(31)

Outline do Curso

Outline do Curso

Motivação

Definições Básicas de Probabilidade

Variáveis Aleatórias Discretas e Contínuas Variáveis Aleatórias Conjuntas

Média, Variância, Correlação

Distribuição e Esperança Condicional Distribuição amostral

(32)

Rosa Leão ­ 2018

Professora:

Professora:

Rosa M. M. Leão - [email protected]

(33)

Website

http://www.land.ufrj.br/~classes/est-prob-2018 notas de aula (slides)

listas de exercícios

datas de provas, dicas, etc.

Informações

Informações

Lista de email do curso (ver website)

(34)

Rosa Leão ­ 2018

Altamente recomendada

Será passada lista de presença

Presença

Presença

Horário de

Atendimento

(35)

Uma prova e uma prova final (se necessário) 1 trabalho

Avaliação

Avaliação

Listas valem um percentual da nota Provas serão baseadas nas listas Cálculo das médias

Media = P1*0.50 + 0.40*Trabalho + 0.10*Listas_de_Exercício

(36)

Rosa Leão ­ 2018

Segunda Chamada

Segunda Chamada

Somente com atestado médio

Ou boa justificativa comunicada antes de perder a prova

Prova com toda a matéria, aplicada depois da prova final

(37)

Livros e Referências

Livros e Referências

Notas de aula (ver website)

“Probability & Statistics with Reliability, Queuing and Computer Science Applications”, por K.S. Trivedi. Willey, 2002.

Probability, Random Process, and Statistical Analysis, Hisashi Kobayashi, Brian L. Mark and William Turin, Cambridge University Press, 2012.

Probability, Markov Chains, Queues, and Simulation: The Mathematical Basis of Performance Modeling, William J. Stewart, Princeton University

(38)

Rosa Leão ­ 2018

Livros e Referências

Livros e Referências

A Modern Introduction to Probability and Statistics - Understanding Why and How, Springer Texts in Statistics, Dekking, F.M., Kraaikamp, C., Lopuhaä, H.P., Meester, L.E., 2005.

Probabilidade e Estatística – Quantificando a incerteza, João Pinheiro, Santiago Carvajal, Sonia Baptista da Cunha, Gastão Gomes, Elsevier, 2012.

Livro de Simulação: Simulation, Sheldon M. Ross, Fifth Edition ou A Course in Simulation, Sheldon M. Ross.

(39)

Recomendação para Sucesso

Recomendação para Sucesso

Estudar a matéria da semana

Fazer listas de exercícios

provas serão baseadas nas listas

Utilizem o horário de atendimento

não deixem dúvidas acumularem

Venham às aulas

(40)

Rosa Leão ­ 2018

Dúvidas

Dúvidas

Referências

Documentos relacionados

Quadro 63 - Fatores críticos de sucesso das empresas fabricantes de móveis de Mirassol - SP (continuação) Necessidades dos Clientes. Bases para a Competição Visão Interna (a

Considerando que o Tribunal Geral da União Europeia declarou, no seu acórdão de 16 de dezembro de 2015 relativo ao processo T-521/14, que a Comissão violou o Direito da União

obtidas em cada base, também são registradas, elas são utilizadas para dar volume ao sistema subterrâneo.. Trabalhos sobre levantamentos topográficos em cavernas [1,2] discutem

Foi observada durante o desenvolvimento da presente pesquisa a presença de latrinas (figura ?) localizadas a céu aberto e sem nenhum tipo de proteção ao solo, sendo todos os

Estas informações foram correlacionadas com os dados da Secretaria Nacional de Defesa Civil (SEDEC) a fim de averiguar a decretação de Estado de Calamidade Públi- ca (ECP)

Estatísticas das Medidas de Desempenho Média Variância Distribuição de probabilidade Correlação.. Exemplo de

Exemplos de Aplicação Sistemas de inferência Planejamento do sistema de computadores de bordo de um avião. População com maior probabilidade de ter

preferências, as necessidades e o comportamento do usuário Dados coletados de sistemas permitem melhor planejamento, desempenho e análise da