• Nenhum resultado encontrado

An´alise de Dados e Simula¸c˜ao

N/A
N/A
Protected

Academic year: 2022

Share "An´alise de Dados e Simula¸c˜ao"

Copied!
18
0
0

Texto

(1)

An´alise de Dados e Simula¸c˜ao

M´arcia D’Elia Branco

Universidade de S˜ao Paulo Instituto de Matem´atica e Estat´ıstica

http:www.ime.usp.br/ mbranco

An´alise Estat´ıstica.

(2)

An´alise Estat´ıstica

Motiva¸c˜ao: Fila de 1 servidor.

Clientes chegam em um banco (sistema) segundo um PPNH com fun¸c˜ao intensidade λ(t) , t >0.

O banco possue um ´unico caixa (servidor). Se ele esta livre o cliente ´e atendido, caso contr´ario, espera na fila.

O tempo de atendimento do cliente pelo servidor ´e uma v.a.

Y com distribui¸c˜aoG, independente do processo de ingresso no sistema e do atendimento do cliente anterior.

Existe um tempo T0 a partir do qual n˜ao ´e mais permitido a entrada no sistema. Todos os clientes que j´a entraram ser˜ao atendidos.

(3)

An´alise Estat´ıstica

Poss´ıveis interesses:

(1) Determinar o tempo m´edio gasto por um cliente no banco.

TE :tempo de entrada no sistema.

TS :tempo de sa´ıda do sistema

Tempo de permanˆencia: X=TS−TE. Parˆametro de interesse: θ1=E[X].

(2) Determinar o tempo extra de trabalho.

TSu:tempo de sa´ıda do ´ultimo cliente (m´aximo TS).

Tempo extra: Y =TSu−T0. Parˆametro de interesse: θ2=E[Y].

(4)

An´alise Estat´ıstica

Quest˜ao de simula¸c˜ao: Quantos dias devem ser simulados?

Similar ao problema estat´ıstico de determinar o tamanho da amostra.

Primeiro devemos estabelecer o parˆametro de interesse e seu estimador.

Em geral estamos interessados em estimar uma m´edia populacional: E[X].

Usamos como estimador a m´edia amostralX¯ = n1Pn i=1Xi. Considerando as propriedades usuais da m´edia amostral, estabelecemos uma express˜ao para o tamanho da amostra que depende da confian¸ca (1−α) e da precis˜ao (2ǫ) desejadas.

(5)

An´alise Estat´ıstica

Lembre que, parangrande,

ǫ=Z1α/2 Sn

√n comSn2 = n−11

n

P

i=1

(Xi−X)¯ 2 e

Z1α/2 o percentil de ordem1−α/2 da N(0,1).

A seguinte estrat´egia de simula¸c˜ao pode ser usada.

(i)Simular n0 valores iniciais deX.

(ii) Fixado α00, segue simulando novos valores de X at´e obter Z1α/2Sn

√n ≤ǫ0.

(6)

An´alise Estat´ıstica

Caso especial: Propor¸c˜ao

Xi = 1 com probabilidadep e Xi= 0 , com probabilidade1−p.

Ent˜aoE[Xi] =pe V ar[Xi] =p(1−p).

Note queX¯ = ˆp´e a propor¸c˜ao de 1´s na amostra.

Neste caso

ǫ=Z1−α/2

rp(1ˆ −p)ˆ

n .

OBS:Dependendo do parˆametro de interesse pode n˜ao haver f´ormula explicita para o erro padr˜ao do estimador. Neste caso, devemos estim´a-lo. M´etodos de reamostragem s˜ao ´uteis para este prop´osito.

(7)

M´etodos de reamostragem ( bootstrap e Jackknife )

O m´etodo de bootstrapfoi introduzido por Efron (1979).

Para mais informa¸c˜ao sobre a metodologia ver o livro de Efron and Tibshirani(1998). Chapman and Hall/CRC.

O termo provem de uma frase do romance ”‘As aventuras do Bar˜ao de Munchausen”’ escrito por Rudolph Raspe, ”‘ to pull oneself up by one´s bootstrap”’.

Na l´ıngua portuguesa poderia ser interpretado como ”‘pular sobre suas pr´oprias botas”’ ou ”‘subir com seus pr´oprios esfor¸cos”’.

O m´etodo de Jackknife´e mais simples e anterior aobootstrap.

O objetivo dos m´etodos ´e estimar a variabilidade de um estimador reamostrando da pr´opria amostra observada.

(8)

O m´etodo de Jackknife

Considerex1, x2, . . . , xn a amostra observada.

As amostras deJackser˜ao constru´ıdas retirando-se um elemento da amostra original,

x(i)= (x1, . . . , xi1, xi+1, . . . , xn), i= 1, . . . , n−1.

Obtemos assimnamostras de Jack. Para cada uma destas amostras calcula-se o valor do estimador de interesseθ(i).ˆ A estimativa deJackknifepara o Erro Quadr´atico M´edio (EQM) do estimadorθˆ´e dada por

EQMJack(ˆθ) = n−1 n

n

X

i=1

[ ˆθ(i)−θ]¯2

comθ¯= n1 Pn

i=1

θ(i).ˆ

(9)

Exemplo 1: Estimando a m´edia populacional

Parˆametro de interesseµ=E[X]. Estimador X.¯

Considere a amostrax= (10,27,31,40,46,50,52,104,146).

Amostras deJackde tamanho (n-1):

x(i) x¯ mediana

(27,31,40,46,50,52,104,146) 62.00 48 (10,31,40,46,50,52,104,146) 59.87 48 (10,27,40,46,50,52,104,146) 59.37 48 (10,27,31,46,50,52,104,146) 58.25 48 (10,27,31,40,50,52,104,146) 57.50 45 (10,27,31,40,46,52,104,146) 57.00 43 (10,27,31,40,46,50,104,146) 56.75 43 (10,27,31,40,46,50,52,146) 50.25 43 (10,27,31,40,46,50,52,104) 45.00 43

(10)

θ¯= 56.22, o qual ´e igual a m´edia amostra ´ex.¯

EQMJack( ¯X) = 8 9

9

X

i=1

[¯x(i)−θ]¯2 = 199.9

O real valor de erro quadr´atico m´edio paraX¯ ´e dado por V ar(X)

n Usando a variˆancia amostrals2= n1

1 n

P

i=1

(xi−x)¯ 2 como estimador deV ar(X), temos que EQMˆ = 1799.19/9 = 199.9

´E poss´ıvel mostrar que

EQMJack( ¯X) = s2 n

(11)

Problema com o Jackknife: uso de fun¸c˜oes n˜ao suaves.

Considereθˆ=med(x),ent˜ao

EQMJack(md) = 47.11 Se utilizarmos a metodologia debootstrapobtemos

EQMBoot= 91.78 com base em 1000 amostras simuladas.

(12)

O m´etodo de bootstrap n˜ao param´etrico

Um amostra debootstrap´e obtida simulando, com reposi¸c˜ao, n valores segundo a distribui¸c˜ao emp´ıricaFe. Denotada por x = (x1, x2, . . . , xn).

Simula-se um n´umero B de amostras e para cada uma avalia-se o estimador. Obtendo-seθˆ1, . . . ,θˆB.

No exemplo, poss´ıveis amostras (ou r´eplicas) s˜ao:

x x¯ mediana

(10,27,31,40,46,50,52,104,146) 56.22 46 (10,10,27,27,40,40,50,50,104) 39.78 40 (10,10,27,40,40,50,50,104,104) 48.33 40 (10,27,27,27,46,50,52,104,104) 49.67 46 (27,27,31,46,50,140,140,146,146) 83.67 50 (40,50,52,52,104,104,104,104,146) 84.00 104

(13)

A fun¸c˜ao de distribui¸c˜ao emp´ırica ´e

Fe(xi) = numero de valores menores ou iguais a xi n

Como simular de uma v.a. discreta?

(i)Gerar u∼U(0,1)

(ii) Se Fe(x(i1))< u≤Fe(x(i)) fazerx=x(i)

i= 1,2, . . . , k. Fe(x(0)) =−∞e x(1) < x(1)<· · ·< x(k) s˜ao as estat´ısticas de ordem.

(14)

O erro quadr´atico m´edio debootstrap´e definido como EQMBoot(ˆθ) =EFe[(ˆθ(X)−θ)2]

e denominado estimativa ideal debootstrap para o EQM.

No caso particularθ=µe θˆ= ¯X obtemos EQMBoot(ˆθ) = 1

n2

n

X

i=1

(xi−x)¯ 2

a qual difere levemente da usual estimativa doEQM( ¯X)dada por 1

n(n−1)

n

X

i=1

(xi−x)¯ 2

(15)

Uma medida de interesse em estat´ıstica ´e o erro padr˜ao do estimador (desvio padr˜ao do estimador).

O algoritmo proposto por Efron e Tibshirani para estimar oep(ˆθ)´e dado por:

(i)Considere x1, x2, . . . , xB r´eplicas deBoot.

(ii) Calcule o estimador em cada amostra obtida, θ(xˆ j) , j = 1, . . . , B.

(iii) Estime o erro padr˜ao (epˆB) por









B

P

j=1

[ˆθ(xj)−θ¯]2 B−1









1/2

comθ¯= B1 PB

j=1

θ(xˆ j) .

(16)

Exemplo: Em uma amostra de 15 turmas de uma escola de direito duas medidas foram consideradas: LSAT, o escore m´edio da turma no exame nacional de admiss˜ao ao curso, e GPA, a nota m´edia do curso de gradua¸c˜ao.

LSTA 576 635 558 578 666 580 555 661

GPA 3.39 3.30 2.81 3.03 3.44 3.07 3.00 3.43

LSTA 651 605 653 575 545 572 594

GPA 3.36 3.13 3.12 2.74 2.76 2.88 2.96 O coeficiente de correla¸c˜ao amostral ´erxy = 0.776.

Qual o erro associado a esta estimativa?

(17)

A tabela a seguir apresenta a estimativa debootstrappara o erro padr˜ao do coeficiente de correla¸c˜ao amostral.

B 25 50 100 200 400 800 1600 3200

ˆ

epB 0.140 0.142 0.151 0.143 0.141 0.137 0.133 0.132

Foi observada uma forte assimetria na distribui¸c˜ao de

frequˆencias dos valores obtidos para rxy, indicando que o uso da aproxima¸c˜ao normal para este estimador n˜ao ´e

aconselh´avel.

Assumindo que as observa¸c˜oes tem distribui¸c˜ao normal ´e poss´ıvel mostrar que o erro padr˜ao de rxy ´e 0.115, pr´oximo dos valores obtidos

(18)

O m´etodo de bootstrap param´etrico

A vers˜ao param´etrica do algoritmo debootstrap assume parcialmente conhecida a distribui¸c˜ao de probabilidade F geradora dos dados observados, sendo necess´ario apenas definir os parˆametros dessa distribui¸c˜ao.

O algoritmo para estimar o erro padr˜ao de um estimador ´e igual ao estabelecido anteriormente, a ´unica altera¸c˜ao ´e a maneira como simular as r´eplicas.

A fun¸c˜ao emp´ırica ´e substitu´ıda pela verdadeira F com os parˆametros estimados via amostra original.

Referências

Documentos relacionados

Os valores simulados usando o algoritmo formam uma amostra da distribui¸c˜ao de X (provar!).. O n´ umero de itera¸c˜oes necess´arias para a simula¸c˜ao de uma unidade amostral ´e

[r]

A an´ alise de dados amostrais possibilita que se fa¸ca inferˆencia sobre a distribui¸c˜ ao de probabilidades das vari´ aveis de interesse, definidas sobre a popula¸c˜ ao da qual

A vers˜ ao param´etrica do algoritmo de bootstrap assume parcialmente conhecida a distribui¸c˜ ao de probabilidade F geradora dos dados observados, sendo necess´ ario apenas definir

A proposta de um modelo de regress˜ ao linear simples pode ser baseada em argumentos te´ oricos, como no caso em que dados s˜ ao coletados para a avalia¸ c˜ ao do espa¸ co

· Utilizações identificadas relevantes da substância ou mistura e utilizações desaconselhadas Não existe mais nenhuma informação relevante disponível.. · Utilização

Mesmo n˜ ao sendo necess´ ario que as covari´ aveis x tenham distribui¸ c˜ ao normal, quando a distribui¸ c˜ ao ´ e muito assim´ etrica, uma rela¸ c˜ ao linear com y ser´

d) Não haverá pena de imposição de trabalhos forçados. Com respeito aos direitos sociais, assegurados pela Constituição Federal, assinale a alternativa correta. Com respeito