• Nenhum resultado encontrado

quatis, intervalo de confiança para θ, testes

N/A
N/A
Protected

Academic year: 2022

Share "quatis, intervalo de confiança para θ, testes"

Copied!
15
0
0

Texto

(1)

BOOTSTRAP

INTRODUÇÃO

- IDEIA BÁSICA: reamostrar de um conjunto de dados, diretamente ou via um modelo ajustado, a fim de criar replicas dos dados, a partir das quais podemos avaliar a variabilidade de quantidades de interesse, sem usar cálculos analíticos.

- APLICAÇÃO DO MB: podem ser aplicados quando existe, ou não, um modelo probabilístico bem definido para os dados.

- METODO: COMPUTER-INTENSIVE - CONCEITOS BASICOS

DADOS: y1, y2, ..., yn ~Y com fdp f e fda F θ: característica populacional

T: estatística; t: valor de T na amostra

- INTERESSE: obter a distribuição de probabilidade de T;

viés de T, dp(T); quatis, intervalo de confiança para θ, testes.

- SITUAÇÕES: PARAMETRICA E NÃO-PARAMETRICA

- FUNÇÃO DE DISTRIBUIÇÃO EMPIRICA(FDE)

Fˆ: estimativa de F, a partir da distribuição empírica, que coloca probabilidade 1/n em cada yj.

n y y y

F #{ j }

)

ˆ(

=

(2)

- FUNÇÃO ESTATÍSTICA

Estatística de interesse: t=f(y(1), ..., y(n))

ˆ) (F t

t= : função estatística

) (F t θ =

) ( ˆ)

ˆ F T t(F t F

F = θ = em probabilidade(consistência) - PRECISÃO DA MEDIA AMOSTRAL

Amostra: x1, ..., xn:

n x

xi

=

Erro padrão de

1 ) , (

2 2

=

=

n x s x

n

x s i

- ERRO PADRÃO DE T: estimador de θ

) var(

)

(T T

ep =

Em geral, var(T) depende de θ, portanto

) ( va )

ˆ(T T

p

e =

Para a maioria dos estimadores, não há formulas para calcular o ep.

BOOTSTRAP

) , , (x1 xn

x= L : dados independentes → s(x): estatística de interesse

Amostra bootstrap: x =(x1,L,xn), amostramos, com reposição, n vezes de x

- ALGORITMO BOOTSTRAP:

gera um grande número de amostras bootstrap independentes: x1,x2,L,xB

(3)

Cada uma de tamanho n. B ≈ 200.

- OBJETIVO: estimar ep dos estimadores - RÉPLICA BOOTSTRAP:

Amostra bootstrap x s(x): réplica bootstrap

- ESTIMADOR BOOTSTRAP DO ERRO PADRÃO: desvio padrão das réplicas bootstrap

[ ]

2

1

1

2/( 1)

) ( ) (

ˆ

=

= B

b b

boot s x s B

p e

Com B

x s s

B b

= b

=

1 ( )

) (

- ESTIMADOR BOOTSTRAP DE epˆF(θˆ): usa Fˆ no lugar de F, isto é, o estimador bootstrap é

ˆ)

ˆ(θ

epF : estimador bootstrap ideal do ep de θˆ

Não há formula que permite calcular o estimador bootstrap ideal exatamente.

- ALGORITMO BOOTSTRAP: forma computacional de obter uma boa aproximação do valor numérico de epFˆ(θˆ)

Para implementar num computador:

(1) um mecanismo aleatório seleciona inteiros i1, i2, ..., in, entre 1 e n, com probabilidade 1/n;

(2) a amostra bootstrap consiste nos números

x x

x

i in

, ,

1= 1 L

ALGORITMO BOOTSTRAP PARA ESTIMAR ERROS PADRÕES

(4)

[1] sele cione B amostras independentes, x1,L,xB, cada uma consistindo de n valores selecionados com reposição de x. Tome B ≈ 25 - 200.

[2] calcule a réplica bootstrap para cada amostra bootstrap:

. , 1 ), ( )

ˆ(b =s xb b= LB θ

[3] estime o erro padrão epF(θˆ) pelo desvio padrão amostral das B réplicas:

2 1

1

))2

ˆ ( ) ˆ ( 1 (

ˆ 1

=

=

B

b

B b

p B

e θ θ , estimador bootstrap não

paramétrico, onde

) ˆ ( ) 1

ˆ (

1

B b

B

b

=

= θ

θ

ˆ ) ˆ (

limBepB =epFˆ =epFˆ θ : desvio padrão empírico se aproxima do desvio padrão populacional quando B →∞. Neste caso, a “populacional” é a população dos valores

=s(x ), onde Fˆ (x , ,xn)= x

ˆ 1 L

θ

BOOTSTRAP PARAMÉTRICA

Útil em problemas para os quais dispomos de alguns conhecimentos sobre a forma da população e para comparar com análises não paramétricas.

X → F, F: FDA (x1, x2, ..., xn) ~ F

Considere um modelo paramétrico para os dados.

F ˆ

par: estimador de F obtido deste modelo.

(5)

θˆ: estimador do parâmetro θ.

A estimativa bootstrap paramétrica do ep(θˆ) é definida por

) ˆ (

θ ˆ

*

ep

Fpar

Exemplo: escola de direito Suponha F ~

N

2(µ,ν) , n = 15

onde

=

µ

µ

µ

z y ,

=

σ σ

σ

ν

σ

2 2

2 2

z zy

yz

y simétrica

Estimamos µ por

= z

µˆ y e V por

=

∑ ∑

2 2

) (

) )(

( ) ( 14 ˆ 1

z z

z z y y y

V y

i i i

i

ˆ) ˆ,

2(

ˆ N

V

F

norm µ : estimador paramétrico de F

ˆ ) ˆ (

θ

ep

Fnorm

: estimador bootstrap paramétrico de ep(θˆ), onde

) , ˆ( ˆ=corr y Z

θ .

Retiramos B amostras de tamanho n com reposição da população

) , , ( 1

ˆ

ˆ

par

F

norm x x B

F

= L

Procede-se, depois, como em (2) e (3) do AB.

B amostra de tamanho 15 de

F ˆ

norm e calculamos o coeficiente de correlação para cada amostra.

124 ,

ˆ

=0

p

e

B (0,131: estimador não paramétrico)

(6)

ESTIMADOR BOOTSTRAP DO VIÉS (x1, x2, ..., xn) ~ F; θ=t(F). ~ ( )

x s θ =

CONSIDERE O ESTIMADOR θˆ=t(Fˆ).

O viés de ~ ( ) x s

θ = é definido por

) ( )) (

(s x t F viésF =

E

F

Ou seja, esperança do estimador – θ

Estimadores não viciados são importantes na teoria e na pratica estatística.

Podemos usar bootstrap para avaliar o viés de um estimador.

O estimador bootstrap do viés é definido por

{

( )

}

(ˆ)

ˆ

ˆ

E

s x t F

viés

F = F : estimador ideal do viés.

Exemplo:

a)t(F) = µ, s(x)= x,

viés

Fˆ =0

b)

[ ]

2 ˆ 2 2

2

) 1 (

, 1 ;

) ( ) ;

) (

( x x

caso n neste x n

s n viés

x x x

s i

F

i =

viés

=

=

∑ ∑

σ

Para a maioria dos estimadores utilizados na prática, o estimador bootstrap do viés deve ser aproximado por simulação:

[1] geramos amostras bootstrap (x1,L,xB) e calculamos as replicas bootstrap

(7)

. , , 1 ), ( )

~ (

B b

x s

b = b = L

θ

[2] aproximamos as esperanças bootstrap

E

Fˆ{s(x)}pela

média

B x s B

b B

b B b

b

= =

= 1 ~ ( )= 1 ( )

)

~ ( θ

θ

[3] o estimador bootstrap do viés é

ˆ) ( )

~ (

ˆ t F

s

vie B =θ

Exemplo: dados hormônio (bio-equivalência) As concentrações:

placebo oldpatch newpatch Old- placebo

New-old

subject z y

1 9243 17649 16449 8406 -1200

2 9671 12013 14614 2342 2601

3 11792 19979 17274 8187 -2705

4 13357 21816 23798 8459 1982

5 9055 13850 12560 4795 -1290

6 6290 9806 10157 3516 351

7 12412 17208 16570 4796 -638

8 18806 29044 26325 10238 -2719

Mean 6342 -4520,3

FDA: 0,20

) (

) (

) ( )

(

placebo E

antigo E

antigo E

novo

E critério

Parâmetro:

) (

) (

) ( ) (

placebo E

antigo E

antigo E novo E

= θ

Objetivo: calcular o viés e o erro padrão de θˆ Considere:

(8)

zi = medidas com o “antigo” – medidas com o “placebo”

yi = medidas com o “novo” – medidas com o “antigo”

xi=( zi , yi ), i=1, 2, ..., 8

X=( x1, xi ,…, x8 ), ~ F: desconhecida

) (

) ) (

( E z

y F E

t

F

= F

θ =

0713 , 0 8 /

8 ) /

(ˆ ˆ

8 1 8

1 =

=

=

=

=

=

i i

i i

z y Z

F y θ t

Nota: Z e Y são dependentes.

20 , ˆ <<0

θ , portanto aparentemente a condição do FDA está satisfeita e os dois hormônios são bioequivalêntes.

B=400 amostras bootstrap: xi =(x1i,L,x8i)

→ 400 réplicas bootstrap

= z θˆ y

As 400 réplicas tem um desvio padrão amostral, epˆ400 =0,105

Média amostral: θˆ()=0,0670.

Estimador bootstrap do viés:

0043 , 0 ) 0713 , 0 ( 0670 , 0

ˆ400 = =

s vie

041 , 105 0 , 0

0043 , 0 ˆ

ˆ

400

400 = =

p e

s

vie , portanto viés sob controle.

Regra: viesˆ<0,25epˆ podemos ignorar o viés

(9)



 +



 +

= +

=

=

2 2

2 2

2

2 1 1 ˆ) ( 1

ˆ) ( )

ˆ, ( ˆ)

( ˆ )

(

F F F

F F F

F F

F ep

ep vies ep

ep vies vies

ep E

RMSE θ θ θ θ θ θ θ

CORREÇÃO DE VIÉS

Vˆ: estimador do viesF(θˆ,θ)θ =θˆVˆ: estimador corrigido para o viés.

Tomando

) ˆ ( 2ˆ ˆ,

) ˆ (

ˆ=vies =θ θ obtemosθ = θθ

V B

Exemplo(hormônio):

0756 , 0 0043 , 0 0713 , 0 0713

, ˆ 0 0043 , ˆ 0

400 = e θ = θ = =

V

Observações:

1)a correção do viés pode ser perigosa na prática.

Mesmo que θ seja menos viesado do que θˆ, ele pode ter erro padrão substancialmente maior.

2)O viés é mais difícil de estimar do que o ep, → B maior para estimar o viés.

3)Se Vˆ <<ep, melhor usar θˆ do que θ .

INTERVALO DE CONFIANÇA

Dado o estimador θˆ de θ, seu ep estimado, epˆ(θˆ), o intervalo de confiança(IC) usual, com coeficiente de confiança(C.C.) 90%, para θ é

ˆ) ( ˆ 645 .

ˆ 1 θ

θ± ep

ˆ) ˆ (

~ ) , ,

(x1 x F e t F

x= L n θ =

( )

θˆ

pˆ

e : algum estimador do ep(θˆ), baseado por ex, em réplicas jackknife ou bootstrap.

(10)

Então, sob determinadas condições,

→

D N( ,epˆ(ˆ)), n

ˆ θ θ

θ

Ou

) 1 , 0 ( ˆ)

ˆ( ˆ

N p

e → θ

θ

θ (8)

Assim,

[

θˆZ(1α) epˆ, θˆ+Z(1α) epˆ

]

é o IC padrão com C.C. igual a 1-2α.

APROXIMAÇÃO PARA AMOSTRAS FINITAS:

Para θˆ=x, temos seguinte resultado:

~ 1

ˆ ˆ

= tn

p Z θe θ

(9) E o IC fica

[

ˆ tn epˆ, ˆ tn (1 ) epˆ

]

1 )

1 ( 1

α

α θ

θ +

Se θˆ=x e x ~normal, a aproximação é exata e o IC é mais largo, refletindo o fato que o ep não é conhecido.

Se n ≥ 100, tn(11α) Z(1α). INTERVALO BOOTSTRAP-t

Com o uso de bootstrap podemos obter IC acurado aem utilizar a expressão (8).

A distribuição de Z em (9) será estimada diretamente dos dados, ou seja, obtemos uma tabela apropriada para o particular conjunto de dados.

(11)

PROCEDIMENTO:

[1] geramos B amostras bootstrap x1,L,xB

[2] para cada amostra construímos

) ˆ (

) ˆ ˆ ( )

( ep b

b b

Z

=θ θ

Com θˆ(b)=s(xb) valor de θˆ para a amostra xb

epˆ(b): erro padrão estimado de θˆ(b) para a amostra xb

[3] o α-percentil de Z(b) é estimado pelo tˆ(α) tal que

α α

=

b t B

Z ( ) ˆ }/ {

# ( )

[4] O IC bootstrap-t é dado por

[

θˆtˆ(α) epˆ, θˆ+tˆ(1α) epˆ

]

Ex: se B=1000, a estimativa do 5%-percentil (tˆ(5%)) é 0 50º. maior valor dos Z(b).

Intervalo percentil

x: dados bootstrap

) ˆ =s(x

θ : réplicas bootstrap

Gˆ: FDA de θˆ

O intervalo percentil, com C.C. 1-2α, é definido pelos percentis α e 1-α de Gˆ:

[

θˆinf, θˆsup

] [

= Gˆ1(α), Gˆ1(1α)

]

(12)

OBSERVAÇÕES:

1) Bα não inteiro, α≤ 0,05. Considere k=[(B+1) α]. Os quantis α e 1-α são dados pela k-ésima maior. E (B+1-k) maior observação, respectivamente.

Ex.: B=50, α=0,05, Bα=2,5, k=[51*0,05]=[2,55]=2, portanto α-percentil é a 2ª. Observação e o (1-α)- percentil é a 49ª. Observação.

2) em amostras grandes, a cobertura do IC bootstrap-t tende a ser mais próxima do CC desejado do que o IC padrão e t.

Ex. Ratos:

16 ratos(7: tratamento; 9: controle)

Dados: tempo de sobrevivência (em dias) após o tratamento

Questão: tratamento prolonga sobrevida após a cirurgia?

Tabela 1: dados

Group Data Sample

Size

mean Estimated standar error Treatment 94, 197, 16,

38, 99, 141

23

7 86,86 25,24

Control 52, 104, 146,

10, 51, 30, 40, 27, 46

9 56,22 14,14

difference 30,63 28,93

(13)

Tabela 2: bootstrap estimates of standard error for the mean and median: treatment group. The median is less accurate (has larger standard error) than the mean for this data set.

B 50 100 250 500 1000 ∞

mean 19,72 23,63 22,32 23,76 23,02 23,36 median 32,21 36,35 34,46 36,72 36,48 37,83

) ( 05 , 93 1 , 28

63 , 30 ) 63 (

,

30 no

y x dp

y e x

y

x = =

=

48 46

) ( ,

94 )

( 2 1 2

1 =med x = m =med y = m m =

m

14 , 38 ) 54 , 11 ( ) 35 , 36 ˆ (

36 , 36 ) ˆ( , 54 , 11 ) ˆ(

100 1 = 2 = = 2+ 2 =

= ep m ep m epboot

B

Estatística para teste: 1,26 14 , 38

48 =

IC:

Media dos ratos tratados: θˆ=86,86 e epˆ =25,24

IC padrão(γ=0,90):

[86,86-1,65*25,24; 86,86+1,65*25,24] = [45; 128,4]

B=1000 réplicas: θˆ=?

Tabela 3: percentiles of θˆ based on 1000 bootstrap replications, where θˆ equais the mean of the treated mice.

2,5% 5% 10% 16% 50% 84% 90% 95% 97,5%

45,9 49,7 56,4 62,7 86,9 112,3 118,7 126,7 135,4

(14)

Percentile 5% = 49,7 Percentile 95% = 126,7

Intervalo percentil com C.C. 90% = [49,7; 126,7]

Utilizar os percentis do histograma para definir limites de confiança.

PROCEDIMENTO:

[1] geramos B amostras bootstrap x1,L,xBθˆ(b)=s(xb) [2] θˆB(α): α-percentil dos valores θˆ(b)=s(xb)

[3] IC percentil aproximado com 1-2α:

[

θˆ%,inf; θˆ%,sup

] [

= θˆB(α); θˆB(1α)

]

Exemplo: x1, x2, ..., x10 ~ N(0,1)

1

, = = 0 =

=e µ média populacional θ e θ µ

25 , ˆ=ex =1

θ (exemplo artificial)

IC padrão: 1,25 ±1,96epˆ1000 =1,25±1,960,34=[0,59; 1,92]

B=1000 réplica θˆ =ex

Percentis empíricos de θˆ IC percentil 95%

[0,75; 2,07]

→ aprox. Normal não é muito boa nesse caso.

(15)

Tabela 4: percentiles of θˆ =ex for a normal sample of size 10.

2,5% 5% 10% 16% 50% 84% 90% 95% 97,5%

0,75 0,82 0,90 0,98 1,25 1,61 1,75 1,93 2,07

Referências

Documentos relacionados

O objetivo deste trabalho foi avaliar a reação ao oídio de genótipos de cevada do programa de melhoramento genético da Embrapa Trigo, no ano de 2009, componentes de ensaios de Valor

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

Feitiço do Segredo: deposita um segredo numa pessoa de confiança, essa pessoa fica deposita um segredo numa pessoa de confiança, essa pessoa fica sendo o &#34;Fiel do sendo o

a) Sistema de produto: produção integrada: soja, capim e algodão. O capim é cultivado como espécie formadora de palha; não é colhido ou pastejado, correspondendo, portanto, a um

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades

Também ocorreram diferenças significativa nos intervalos de variação de temperatura entre os estratos da vegetação (Permanova F= 34,0; p&lt;0,001) e entre os sítios de

Discussion The present results show that, like other conditions that change brain excitability, early environmental heat exposure also enhanced CSD propagation in adult rats.. The

Pode haver alguns acordos prévios, como visto na classificação proposta em trabalho anterior (GUERRERO, 2006), mas estes são propostos sempre mantendo elevado