Estatística: Revelando o Poder dos Dados Lock5
Seção 3.3
Construção de Intervalos
de Confiança Bootstrap
Estatística: Revelando o Poder dos Dados
Sumário
Amostras bootstrap
Distribuição bootstrap
Erro-padrão de uma distribuição bootstrap
Intervalo de confiança de 95% com base em
Estatística: Revelando o Poder dos Dados
Intervalos de Confiança
População Amostra Amostra Amostra Amostra Amostra Amostra . . . Distribuição Amostral Erro-Padrão (EP): desvio-padrão da distribuição amostralMargem de Erro (ME)
(95% IC: ME = 2×EP)
estatística ± ME
Calcule estatística para cada amostra
Estatística: Revelando o Poder dos Dados
Ideal
• Para criar um intervalo plausível de valores
para um parâmetro:
o Pegue muitas amostras aleatórias da população e calcule a estatística da amostra para cada
o Calcule o erro-padrão como o desvio-padrão de todas essas estatísticas
o Use estatística 2EP
Estatística: Revelando o Poder dos Dados
Realidade
… APENAS TEMOS UMA AMOSTRA!!!!
•
Como sabemos o quanto as estatísticas
amostrais variam, se temos apenas uma
amostra?!?
Estatística: Revelando o Poder dos Dados
Amostra: 52/100 laranja
Onde poderia estar o “verdadeiro” p?
UMA Amostra de Confetes (m
&m
’s)
ˆ
0.52
Estatística: Revelando o Poder dos Dados
• Imagine que a “população” seja muitas,
muitas copias da amostra original
• (O que você tem que assumir?)
Estatística: Revelando o Poder dos Dados
“População” de Confetes (m
&m
’s)
Amostre repetidamente
desta “população”
Estatística: Revelando o Poder dos Dados
• Para simular uma distribuição de amostragem,
podemos apenas recolher amostras aleatórias
repetidas desta “população” composta de muitas cópias da amostra
• Na prática, não podemos fazer cópias infinitas da amostra…
• … mas podemos fazer isso por amostragem com
reposição da amostra que temos (cada unidade
pode ser selecionada mais de uma vez)
Estatística: Revelando o Poder dos Dados
Suponha que tenhamos uma
Estatística: Revelando o Poder dos Dados Amostra
original
Estatística: Revelando o Poder dos Dados
Amostra Bootstrap:
Amostra com reposição da amostra original, usando o mesmo tamanho de amostra.Estatística: Revelando o Poder dos Dados
• Como você pegaria uma amostra bootstrap da
sua amostra de m&m’s?
Estatística: Revelando o Poder dos Dados
Sua amostra original possui valores de dados 18, 19, 19, 20, 21
A seguinte é uma possível amostra bootstrap? 18, 19, 20, 21, 22
Amostra Bootstrap
Não. 22 não é um valor da amostra original
Estatística: Revelando o Poder dos Dados
Sua amostra original possui valores de dados 18, 19, 19, 20, 21
A seguinte é uma possível amostra bootstrap? 18, 19, 20, 21
Amostra Bootstrap
Não. Amostras bootstrap deve ter o mesmo tamanho da amostra original
Estatística: Revelando o Poder dos Dados
Sua amostra original possui valores de dados 18, 19, 19, 20, 21
A seguinte é uma possível amostra bootstrap? 18, 18, 19, 20, 21
Amostra Bootstrap
Sim. De mesmo tamanho, pode ser sido obtida por amostragem com reposição
Estatística: Revelando o Poder dos Dados
Bootstrap
Uma amostra bootstrap é uma amostra aleatória
tirada com reposição da amostra original, do mesmo tamanho da amostra original
Uma estatística bootstrap é a estatística
calculada de uma amostra bootstrap
Uma distribuição bootstrap é a distribuição
Estatística: Revelando o Poder dos Dados Amostra Original Amostra Bootstrap Amostra Bootstrap Amostra Bootstrap . . . Estatística Bootstrap Estatistica Amostral Estatística Bootstrap Estatística Bootstrap . . . Distribuição Bootstrap
Estatística: Revelando o Poder dos Dados
Distribuição Bootstrap
Estatística: Revelando o Poder dos Dados
“Pull yourself up by your bootstraps”
Porque “bootstrap”?
• Levante-se no ar simplesmente puxando para
cima os laços de suas botas
• Metáfora para realização de uma tarefa “impossível” sem ajuda externa
Estatística: Revelando o Poder dos Dados
Distribuição Amostral
Populaçãoµ MAS, na prática, não
vemos a "árvore" ou todas as "sementes" -só temos UMA
Estatística: Revelando o Poder dos Dados
Distribuição Bootstrap
Bootstrap“População”
O que podemos fazer com apenas uma semente? Cultive uma NOVA árvore! ҧ 𝑥 Estimar a distribuição e a variabilidade (EP) dos ҧ𝑥’s das amostras bootstraps µ
Estatística: Revelando o Poder dos Dados
As estatísticas bootstrap estão para
a estatística amostral original
assim como
a estatística amostral original está
para o parâmetro da população
Estatística: Revelando o Poder dos Dados
Centro
•
A distribuição amostral é centrada em torno
do parâmetro populacional
•
A distribuição bootstrap é centrada em torno
da estatística da amostra
•
Felizmente, não nos importamos com o
centro… nos preocupamos com a
Estatística: Revelando o Poder dos Dados
Erro-Padrão
•
A variabilidade da estatística bootstrap é
semelhante à variabilidade das estatísticas
amostrais
•
O erro-padrão de uma estatística pode
ser estimado usando o desvio-padrão da
Estatística: Revelando o Poder dos Dados
Intervalos de Confiança Bootstrap
Amostra Amostrabootstrap
Amostra bootstrap Amostra bootstrap Amostra bootstrap Amostra bootstrap . . . Distribuição Bootstrap Erro-Padrão (EP): desvio-padrão da distribuição bootstrap
Margem de Erro (ME)
(95% IC: ME = 2×EP)
estatística ± ME
Calcule estatística para cada amostra bootstrap
Estatística: Revelando o Poder dos Dados
Quanto a Outros Parâmetros?
Estime o erro-padrão e/ou um intervalo de confiança para ...
• proporção (𝑝)
• diference nas médias (µ1 − µ2 )
• diference nas proporções (𝑝1 − 𝑝2 )
• Desvio-padrão (𝜎)
• correlação (𝜌)
• ... Gere amostras com reposição
Calcule a estatística da amostra Repita...
Estatística: Revelando o Poder dos Dados
• Podemos usar bootstrap para avaliar a
incerteza em torno de qualquer estatística amostral!
• Se tivermos dados amostrais, podemos usar
o bootstrap para criar um intervalo de
confiança de 95% para qualquer parâmetro!
(bem, quase isso…)
Estatística: Revelando o Poder dos Dados
Mustangs Usados
Qual é o preço médio de um carro usado
Mustang?
Selecione uma amostra aleatória de n = 25
Mustangs de um website (autotrader.com) e registre o preço (em US $ 1.000) para cada carro.
Estatística: Revelando o Poder dos Dados
Amostra de Mustangs:
Nossa melhor estimativa para o preço médio dos Mustangs usados é de $ 15.980, mas quão exata é essa estimativa?
Price
0 5 10 15 20 25 30 35 40 45 MustangPrice Dot Plot
𝑛 = 25 𝑥 = 15.98 𝑠 = 11.11ҧ
Estatística: Revelando o Poder dos Dados
Amostra Original 1. Amostra Bootstrap
2. Calcule o preço médio da amostra bootstrap 3. Repita muitas vezes!
Estatística: Revelando o Poder dos Dados
Mustangs Usados
Estatística: Revelando o Poder dos Dados
Mustangs Usados
95% IC: 𝐸𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃 $15.980 ± 2 ∙ $2.178 ($11.624; $20.336) Temos 95% de confiança de que o preço médio de
um Mustang usado no autotrader.com esteja entre US $ 11.624 e US $ 20.336.
Estatística: Revelando o Poder dos Dados
Mobilidade em Atlanta
Qual é o tempo médio de deslocamento para
trabalhadores na região metropolitana de Atlanta?
Dados: O American Housing Survey (AHS) coletou dados de Atlanta em 2004
Estatística: Revelando o Poder dos Dados
Onde poderia estar o “verdadeiro” μ?
Time
20 40 60 80 100 120 140 160 180
CommuteAtlanta Dot Plot
Amostra Aleatória de 500 Deslocamentos
Estatística: Revelando o Poder dos Dados
Estatística: Revelando o Poder dos Dados
Estatística: Revelando o Poder dos Dados
Mobilidade em Atlanta
Intervalo de confiança de 95% para o tempo médio de deslocamento para os atlantes:
Estatística: Revelando o Poder dos Dados
Qual a porcentagem de americanos que acreditam no aquecimento global?
Uma pesquisa com 2.251 indivíduos selecionados aleatoriamente, realizada em outubro de 2010, descobriu que 1.328 responderam "Sim" à pergunta
“Existe evidência sólida de aquecimento global?”
Forneça e interprete um IC de 95% para a proporção de americanos que acreditam que há evidências sólidas de aquecimento global.
Aquecimento global
Source: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10.
Estatística: Revelando o Poder dos Dados
Aquecimento global
www.lock5stat.com/statkey
Temos 95% de certeza de que a verdadeira porcentagem de todos os americanos que acreditam existir evidências sólidas de aquecimento global esteja entre 57% e 61%
0.59 2(0.01) = (0.57, 0.61)
Estatística: Revelando o Poder dos Dados
A crença no aquecimento global difere por partido político?
“Existe evidência sólida de aquecimento global?”
A proporção da amostra que respondeu "sim" foi de 79% entre os democratas e 38% entre os republicanos.
(números exatos para cada partido não dada, mas assuma n = 1000 para cada grupo)
Dê um IC 95% para a diferença nas proporções.
Aquecimento global
Fonte: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10.
Estatística: Revelando o Poder dos Dados
Aquecimento global
www.lock5stat.com/statkey
Temos 95% de certeza de que a diferença na proporção de democratas e republicanos que acreditam no aquecimento
global esteja entre 0,37 e 0,45.
0,41 2(0,02) = (0,37; 0,45)
Estatística: Revelando o Poder dos Dados
Aquecimento global
Com base nos dados que acabamos de analisar, você pode concluir com 95% de certeza que a proporção de pessoas que acreditam no
aquecimento global difere por partido político?
Sim. Temos 95% de confiança de que a diferença está entre 0,37 e 0,45 e esse intervalo não inclui o 0 (nenhuma diferença)
Estatística: Revelando o Poder dos Dados
Resumo
Para gerar uma distribuição bootstrap, nós:
Gere amostras bootstrap por amostragem com reposição da
amostra original, usando o mesmo tamanho de amostra
Calcule a estatística de interesse, uma estatística bootstrap,
para cada uma das amostras bootstrap
Colete as estatísticas para muitas amostras bootstrap para
formar uma distribuição bootstrap
Se a distribuição bootstrap é simétrica e em forma de sino, um IC 95% pode ser estimado por 𝑒𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃, onde EP pode ser estimado como o desvio-padrão de uma distribuição