• Nenhum resultado encontrado

Seção 3.3 Construção de Intervalos de Confiança Bootstrap

N/A
N/A
Protected

Academic year: 2021

Share "Seção 3.3 Construção de Intervalos de Confiança Bootstrap"

Copied!
44
0
0

Texto

(1)

Estatística: Revelando o Poder dos Dados Lock5

Seção 3.3

Construção de Intervalos

de Confiança Bootstrap

(2)

Estatística: Revelando o Poder dos Dados

Sumário

Amostras bootstrap

Distribuição bootstrap

Erro-padrão de uma distribuição bootstrap

 Intervalo de confiança de 95% com base em

(3)

Estatística: Revelando o Poder dos Dados

Intervalos de Confiança

População Amostra Amostra Amostra Amostra Amostra Amostra . . . Distribuição Amostral Erro-Padrão (EP): desvio-padrão da distribuição amostral

Margem de Erro (ME)

(95% IC: ME = 2×EP)

estatística ± ME

Calcule estatística para cada amostra

(4)

Estatística: Revelando o Poder dos Dados

Ideal

• Para criar um intervalo plausível de valores

para um parâmetro:

o Pegue muitas amostras aleatórias da população e calcule a estatística da amostra para cada

o Calcule o erro-padrão como o desvio-padrão de todas essas estatísticas

o Use estatística  2EP

(5)

Estatística: Revelando o Poder dos Dados

Realidade

… APENAS TEMOS UMA AMOSTRA!!!!

Como sabemos o quanto as estatísticas

amostrais variam, se temos apenas uma

amostra?!?

(6)

Estatística: Revelando o Poder dos Dados

Amostra: 52/100 laranja

Onde poderia estar o “verdadeiro” p?

UMA Amostra de Confetes (m

&

m

’s

)

ˆ

0.52

(7)

Estatística: Revelando o Poder dos Dados

• Imagine que a “população” seja muitas,

muitas copias da amostra original

• (O que você tem que assumir?)

(8)

Estatística: Revelando o Poder dos Dados

“População” de Confetes (m

&

m

’s

)

Amostre repetidamente

desta “população”

(9)

Estatística: Revelando o Poder dos Dados

• Para simular uma distribuição de amostragem,

podemos apenas recolher amostras aleatórias

repetidas desta “população” composta de muitas cópias da amostra

• Na prática, não podemos fazer cópias infinitas da amostra…

… mas podemos fazer isso por amostragem com

reposição da amostra que temos (cada unidade

pode ser selecionada mais de uma vez)

(10)

Estatística: Revelando o Poder dos Dados

Suponha que tenhamos uma

(11)

Estatística: Revelando o Poder dos Dados Amostra

original

(12)

Estatística: Revelando o Poder dos Dados

Amostra Bootstrap:

Amostra com reposição da amostra original, usando o mesmo tamanho de amostra.

(13)

Estatística: Revelando o Poder dos Dados

Como você pegaria uma amostra bootstrap da

sua amostra de m&m’s?

(14)

Estatística: Revelando o Poder dos Dados

Sua amostra original possui valores de dados 18, 19, 19, 20, 21

A seguinte é uma possível amostra bootstrap? 18, 19, 20, 21, 22

Amostra Bootstrap

Não. 22 não é um valor da amostra original

(15)

Estatística: Revelando o Poder dos Dados

Sua amostra original possui valores de dados 18, 19, 19, 20, 21

A seguinte é uma possível amostra bootstrap? 18, 19, 20, 21

Amostra Bootstrap

Não. Amostras bootstrap deve ter o mesmo tamanho da amostra original

(16)

Estatística: Revelando o Poder dos Dados

Sua amostra original possui valores de dados 18, 19, 19, 20, 21

A seguinte é uma possível amostra bootstrap? 18, 18, 19, 20, 21

Amostra Bootstrap

Sim. De mesmo tamanho, pode ser sido obtida por amostragem com reposição

(17)

Estatística: Revelando o Poder dos Dados

Bootstrap

Uma amostra bootstrap é uma amostra aleatória

tirada com reposição da amostra original, do mesmo tamanho da amostra original

Uma estatística bootstrap é a estatística

calculada de uma amostra bootstrap

Uma distribuição bootstrap é a distribuição

(18)

Estatística: Revelando o Poder dos Dados Amostra Original Amostra Bootstrap Amostra Bootstrap Amostra Bootstrap . . . Estatística Bootstrap Estatistica Amostral Estatística Bootstrap Estatística Bootstrap . . . Distribuição Bootstrap

(19)

Estatística: Revelando o Poder dos Dados

Distribuição Bootstrap

(20)

Estatística: Revelando o Poder dos Dados

“Pull yourself up by your bootstraps”

Porque “bootstrap”?

• Levante-se no ar simplesmente puxando para

cima os laços de suas botas

• Metáfora para realização de uma tarefa “impossível” sem ajuda externa

(21)

Estatística: Revelando o Poder dos Dados

Distribuição Amostral

População

µ MAS, na prática, não

vemos a "árvore" ou todas as "sementes" -só temos UMA

(22)

Estatística: Revelando o Poder dos Dados

Distribuição Bootstrap

Bootstrap

“População”

O que podemos fazer com apenas uma semente? Cultive uma NOVA árvore! ҧ 𝑥 Estimar a distribuição e a variabilidade (EP) dos ҧ𝑥’s das amostras bootstraps µ

(23)

Estatística: Revelando o Poder dos Dados

As estatísticas bootstrap estão para

a estatística amostral original

assim como

a estatística amostral original está

para o parâmetro da população

(24)

Estatística: Revelando o Poder dos Dados

Centro

A distribuição amostral é centrada em torno

do parâmetro populacional

A distribuição bootstrap é centrada em torno

da estatística da amostra

Felizmente, não nos importamos com o

centro… nos preocupamos com a

(25)

Estatística: Revelando o Poder dos Dados

Erro-Padrão

A variabilidade da estatística bootstrap é

semelhante à variabilidade das estatísticas

amostrais

O erro-padrão de uma estatística pode

ser estimado usando o desvio-padrão da

(26)

Estatística: Revelando o Poder dos Dados

Intervalos de Confiança Bootstrap

Amostra Amostrabootstrap

Amostra bootstrap Amostra bootstrap Amostra bootstrap Amostra bootstrap . . . Distribuição Bootstrap Erro-Padrão (EP): desvio-padrão da distribuição bootstrap

Margem de Erro (ME)

(95% IC: ME = 2×EP)

estatística ± ME

Calcule estatística para cada amostra bootstrap

(27)

Estatística: Revelando o Poder dos Dados

Quanto a Outros Parâmetros?

Estime o erro-padrão e/ou um intervalo de confiança para ...

• proporção (𝑝)

• diference nas médias (µ1 − µ2 )

• diference nas proporções (𝑝1 − 𝑝2 )

• Desvio-padrão (𝜎)

• correlação (𝜌)

• ... Gere amostras com reposição

Calcule a estatística da amostra Repita...

(28)

Estatística: Revelando o Poder dos Dados

Podemos usar bootstrap para avaliar a

incerteza em torno de qualquer estatística amostral!

• Se tivermos dados amostrais, podemos usar

o bootstrap para criar um intervalo de

confiança de 95% para qualquer parâmetro!

(bem, quase isso…)

(29)

Estatística: Revelando o Poder dos Dados

Mustangs Usados

 Qual é o preço médio de um carro usado

Mustang?

 Selecione uma amostra aleatória de n = 25

Mustangs de um website (autotrader.com) e registre o preço (em US $ 1.000) para cada carro.

(30)

Estatística: Revelando o Poder dos Dados

Amostra de Mustangs:

Nossa melhor estimativa para o preço médio dos Mustangs usados ​​é de $ 15.980, mas quão exata é essa estimativa?

Price

0 5 10 15 20 25 30 35 40 45 MustangPrice Dot Plot

𝑛 = 25 𝑥 = 15.98 𝑠 = 11.11ҧ

(31)

Estatística: Revelando o Poder dos Dados

Amostra Original 1. Amostra Bootstrap

2. Calcule o preço médio da amostra bootstrap 3. Repita muitas vezes!

(32)

Estatística: Revelando o Poder dos Dados

Mustangs Usados

(33)

Estatística: Revelando o Poder dos Dados

Mustangs Usados

 95% IC: 𝐸𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃 $15.980 ± 2 ∙ $2.178 ($11.624; $20.336)

Temos 95% de confiança de que o preço médio de

um Mustang usado no autotrader.com esteja entre US $ 11.624 e US $ 20.336.

(34)

Estatística: Revelando o Poder dos Dados

Mobilidade em Atlanta

Qual é o tempo médio de deslocamento para

trabalhadores na região metropolitana de Atlanta?

Dados: O American Housing Survey (AHS) coletou dados de Atlanta em 2004

(35)

Estatística: Revelando o Poder dos Dados

Onde poderia estar o “verdadeiro” μ?

Time

20 40 60 80 100 120 140 160 180

CommuteAtlanta Dot Plot

Amostra Aleatória de 500 Deslocamentos

(36)

Estatística: Revelando o Poder dos Dados

(37)

Estatística: Revelando o Poder dos Dados

(38)

Estatística: Revelando o Poder dos Dados

Mobilidade em Atlanta

Intervalo de confiança de 95% para o tempo médio de deslocamento para os atlantes:

(39)

Estatística: Revelando o Poder dos Dados

Qual a porcentagem de americanos que acreditam no aquecimento global?

Uma pesquisa com 2.251 indivíduos selecionados aleatoriamente, realizada em outubro de 2010, descobriu que 1.328 responderam "Sim" à pergunta

“Existe evidência sólida de aquecimento global?”

Forneça e interprete um IC de 95% para a proporção de americanos que acreditam que há evidências sólidas de aquecimento global.

Aquecimento global

Source: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10.

(40)

Estatística: Revelando o Poder dos Dados

Aquecimento global

www.lock5stat.com/statkey

Temos 95% de certeza de que a verdadeira porcentagem de todos os americanos que acreditam existir evidências sólidas de aquecimento global esteja entre 57% e 61%

0.59  2(0.01) = (0.57, 0.61)

(41)

Estatística: Revelando o Poder dos Dados

A crença no aquecimento global difere por partido político?

“Existe evidência sólida de aquecimento global?”

A proporção da amostra que respondeu "sim" foi de 79% entre os democratas e 38% entre os republicanos.

(números exatos para cada partido não dada, mas assuma n = 1000 para cada grupo)

Dê um IC 95% para a diferença nas proporções.

Aquecimento global

Fonte: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10.

(42)

Estatística: Revelando o Poder dos Dados

Aquecimento global

www.lock5stat.com/statkey

Temos 95% de certeza de que a diferença na proporção de democratas e republicanos que acreditam no aquecimento

global esteja entre 0,37 e 0,45.

0,41  2(0,02) = (0,37; 0,45)

(43)

Estatística: Revelando o Poder dos Dados

Aquecimento global

Com base nos dados que acabamos de analisar, você pode concluir com 95% de certeza que a proporção de pessoas que acreditam no

aquecimento global difere por partido político?

Sim. Temos 95% de confiança de que a diferença está entre 0,37 e 0,45 e esse intervalo não inclui o 0 (nenhuma diferença)

(44)

Estatística: Revelando o Poder dos Dados

Resumo

Para gerar uma distribuição bootstrap, nós:

Gere amostras bootstrap por amostragem com reposição da

amostra original, usando o mesmo tamanho de amostra

Calcule a estatística de interesse, uma estatística bootstrap,

para cada uma das amostras bootstrap

Colete as estatísticas para muitas amostras bootstrap para

formar uma distribuição bootstrap

Se a distribuição bootstrap é simétrica e em forma de sino, um IC 95% pode ser estimado por 𝑒𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃, onde EP pode ser estimado como o desvio-padrão de uma distribuição

Referências

Documentos relacionados

O presente estudo avaliou o pH de oito sabonetes líquidos manipulados em duas cidades do Vale do Taquari –RS, através do método de fita reativa e pHmetro verificando se estão

O nivelamento será feito através do sistema de regulagem de altura localizado na parte anterior dos suportes dos canos (figura 4A e B) colocar a mesa móvel com as

Parágrafo único – O CONTRATANTE se compromete a acessar as NORMAS DE UTILIZAÇÃO DOS RECURSOS DE INFORMÁTICA DA FACULDADE ESUDA veiculadas no website da CONTRATADA

Uma forma de aproximação seria a retirada de várias amostras de uma população obtendo vários valores de médias (várias distribuições de frequências). Se essas

Será considerado habilitado na Prova Prática o candidato que obtiver total de pontos igual ou superior a 50 (cinquenta). O candidato que não comparecer para realizar a Prova ou

Abordaremos então a relação entre as variadas emoções e estes 5 elementos e 20 atributos, mostrando como certos “tipos” de emoções geram impactos sobre determinados

Os alunos do G5 - turma de 2015 - fotografam momentos da grande Festa Junina na escola de educação infantil Ponto de Partida e relatam seus pontos de vista?. + COLORIDO A FOTO DE

3.3 - A Contratada terá prazo de 05 (cinco) dias a contar da data de assinatura do Termo de Contratação para início dos serviços, devendo a partir desse prazo