ESTIMAÇÃO NÃO PARAMÉTRICA DE DENSIDADES

(1)

UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS

DOUTORADO EM ESTATÍSTICA

ESTIMAÇÃO NÃO PARAMÉTRICA DE DENSIDADES

FERNANDA GABRIELY BATISTA MENDES GUILHEME AUGUSTO VELOSO

Belo Horizonte 2018

(2)

Introdução

A Estimativa de densidade é uma coleção de métodos para estimar uma densidade de proba-bilidade, como uma função de uma amostra de dados observada. Até aqui, usamos a estimativa de densidade informalmente para descrever a distribuição de dados. Podemos citar como esti-mador de densidade o histograma, outro tipo de estiesti-mador de densidade é fornecido na função densitydo R. Veremos que density calcula as estimativas de densidade do kernel.

Vários estimadores de densidade são discutidos na literatura. Neste trabalho, restringimos a atenção à estimativa de densidade não paramétrica. Um problema de estimativa de densidade requer uma abordagem não-paramétrica se não tivermos informações sobre a distribuição-alvo além dos dados observados. Em outros casos, podemos ter informações incompletas sobre a distribuição, de modo que os métodos de estimativa tradicionais não sejam diretamente aplicá-veis. Por exemplo, suponha que se saiba que os dados surgem de uma família locação escala, mas a família não é especificada. A estimativa não-paramétrica da densidade pode nem sempre ser a melhor abordagem, no entanto. Talvez os dados sejam considerados uma amostra de um modelo de mistura normal, que é um tipo de problema de classificação; pode-se aplicar EM ou outros procedimentos paramétricos de estimativa. Para problemas que exigem uma abordagem não-paramétrica, a estimativa de densidade fornece uma ferramenta flexível e poderosa para visualização, exploração e análise de dados.

Histogramas

Introduzido em cursos de estatística básica e disponível em todos os pacotes de estatísticas populares, o histograma de probabilidade é a estimativa de densidade mais amplamente utilizada na estatística descritiva. No entanto, mesmo nos projetos elementares de análise de dados, nos deparamos com questões complicadas, como determinar o melhor número de categorias, os limites e a largura dos intervalos de classe, ou como lidar com larguras de intervalos de classe desiguais. Em muitos pacotes de software, essas decisões são feitas automaticamente, mas às vezes produzem resultados indesejáveis. Com o software R, o usuário tem controle sobre várias opções descritas abaixo.

O histograma é uma aproximação constante por partes da função de densidade. Como os dados, em geral, estão contaminados por ruído, o estimador que apresenta muitos detalhes (ajustando-se mais de perto aos dados) não é necessariamente “melhor”. A escolha da largura de barras para um histograma é uma opção de parâmetro de suavização. Uma largura da barra estreita pode diminuir os dados, apresentando também muitos detalhes, enquanto que a largura mais ampla da barra pode sobrecarregar os dados, obscurecendo características importantes. Várias regras são comumente aplicadas que sugerem uma ótima escolha de largura da barra. A escolha do parâmetro de suavização e contagem de barras é um problema desafiador que continua a atrair muita atenção na pesquisa.

Suponha que uma amostra aleatória X1, X2, ..., Xn é observada. Para construir um

histo-grama de frequência ou probabilidade da amostra, os dados devem ser classificados em catego-rias e a operação de categorização é determinada pelos limites dos intervalos de classe. Embora, em princípio, qualquer limite de classe possa ser usado, algumas escolhas são mais razoáveis do que outras em termos da qualidade da informação sobre a densidade populacional. Entre as re-gras comumente aplicadas para determinar os limites de intervalos de classe de um histograma estão a regra de Sturges, a regra de referência normal de Scott, a regra de Freedman-Diaconis (FD) e várias modificações dessas regras.

(3)

um tamanho de amostra n é: ˆ

f (x) = νk

nh, tk ≤ x < tk+1 (1)

onde νké o número de pontos de amostra no intervalo de classes [tk, tk+1). Se a largura da barra

for exatamente 1, a estimativa de densidade é a frequência relativa da classe que contém o ponto x.

Regra de Sturges

Embora a regra de Sturges tenda a suavizar demais os dados e a regra de Scott ou FD sejam geralmente preferíveis, a regra de Sturges é o padrão em muitos pacotes estatísticos.

A regra de Sturges é baseada na suposição implícita de que a população amostrada é nor-malmente distribuída. Nesse caso, é natural escolher uma família de distribuições discretas que convergem em distribuição para normal. O candidato mais óbvio é a distribuição binomial com probabilidade de sucesso 1/2. Por exemplo, se o tamanho da amostra for n = 64, pode-se selecionar sete intervalos de classe de forma que o histograma de frequência correspondente a uma amostra Binomial (6, 1/2) tenha frequências de classe esperadas

6 0 , 6 1 , 6 2 , · · · , 6 6 = 1, 6, 15, 20, 15, 6, 1,

que somam n = 64. Agora considere tamanhos de amostra n = 2k, k = 1, 2, · · · . Para k grande (n grande) a distribuição de Binomial (k, 1/2) é aproximadamente Normal (µ = n/2, σ2 ₌

n/4). Aqui k = log2n e temos k + 1 posições com frequências de classe esperadas

log2n

j

, j = 1, 2, · · · , k.

De acordo com Sturges, o tamanho ideal de intervalos de classe é dado por: R

1 + log2n

(2) onde R é a amplitude amostral. O número de barras depende apenas do tamanho da amostra n e não da distribuição. Essa escolha do intervalo de classe é projetada para dados amos-trados de populações simétricas e unimodais, mas não é uma boa escolha para distribuições assimétricas ou com mais de uma moda. Para amostras grandes, a regra de Sturges tende a ser excessivamente suave.

Exemplo 01: (Estimativas de densidade de histograma usando a regra de Sturges) Embora breaks = "Sturges"seja o padrão na função hist no R, esse valor padrão é apenas uma sugestão, um vetor de limites de classe pode ser fornecido. Por exemplo, compare o seguinte comporta-mento padrão de hist para o número de classes com a regra de Sturges.

n <- 25

x <- rnorm(n)

# calc breaks according to Sturges’ Rule nclass <- ceiling(1 + log2(n))

cwidth <- diff(range(x) / nclass) breaks <- min(x) + cwidth * 0:nclass

h.default <- hist(x, freq = FALSE, xlab = "default", main = "hist: default")

(4)

z <- qnorm(ppoints(1000)) lines(z, dnorm(z))

h.sturges <- hist(x, breaks = breaks, freq = FALSE, main = "hist: Sturges")

lines(z, dnorm(z))

A seguir, temos os valores numéricos correspondentes aos limites dos intervalos e contagens, os histogramas produzidos por cada método são exibidos na Figura (1). O método padrão é uma modificação da Regra de Sturges que seleciona limites dos intervalos "bons".

> print(h.default$breaks) [1] -2 -1 0 1 2 3 4 > print(h.default$counts) [1] 3 8 9 4 0 1 > print(round(h.sturges$breaks, 1)) [1] -1.7 -0.8 0.0 0.8 1.6 2.5 3.3 > print(h.sturges$counts) [1] 3 8 8 4 1 1 > print(cwidth) [1] 0.8239742

A largura da barra de acordo com a regra de Sturges é 0.8239742, em comparação com a largura da barra 1 aplicada pelo comando hist como padrão. Note que a função

nclass.Sturges

function (x) ceiling(log2(length(x)) + 1) calcula o número de classes de acordo com a regra de Sturges.

A estimativa da densidade para um ponto x no intervalo i é dada pela altura do histograma na ith_{barra. Neste exemplo, temos as seguintes estimativas para a densidade no ponto x = 0, 1.}

> print(h.default$density[3]) [1] 0.36

> print(h.sturges$density[3]) [1] 0.3883617

Para a segunda estimativa, a fórmula (1) é aplicada com νk = 3 e h = 0.8239742. (A

densidade normal padrão em x = 0, 1 é 0,397). Para amostras maiores de dados normais, o comportamento padrão do comando hist produz aproximadamente a mesma estimativa de densidade que a Regra de Sturges, conforme mostrado na Figura (2) a seguir para tamanho de amostra n = 1000.

Exemplo 02: (Densidade estimada a partir de um histograma)

Em geral, para recuperar estimativas de densidade ˆf (x) de um histograma, é necessário localizar o intervalo contendo o ponto x e, em seguida, calcular a frequência relativa (fórmula 1) para esse intervalo. No exemplo anterior, com n = 1000, correspondente à Figura (2), temos as seguintes estimativas.

(5)

hist: default default Density −3 −1 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 hist: Sturges x Density −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4

Figura 1 – Estimativas de histograma da densidade normal para amostras de tamanho 25 com curva de densidade normal padrão.

hist: default default Density −3 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 hist: Sturges x Density −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4

Figura 2 – Estimativas de histograma da densidade normal para amostras de tamanho 1000 com curva de densidade normal padrão.

(6)

x0 <- .1 b <- which.min(h.default$breaks <= x0) - 1 print(c(b, h.default$density[b])) b <- which.min(h.sturges$breaks <= x0) - 1 print(c(b, h.sturges$density[b])) [1] 8.000 0.386 [1] 7.000000 0.370973

No histograma padrão ˆf1, o ponto x0 = 0, 1 está na barra 8 e ˆf1(0, 1) = 0.386. Em ˆf2

com intervalos especificados, x0 está na barra 7 e ˆf2(0, 1) = 0.370973. Como alternativa, a

estimativa de densidade é a frequência relativa ponderada pela largura da barra. h.default$counts[8] / (n * 0.5)

h.sturges$counts[7] / (n * cwidth) [1] 0.386

[1] 0.370973

Ambas as estimativas são muito próximas do valor da densidade normal padrão φ(0, 1) = 0, 3699525.

Referência Normal de Scott

Para selecionar um parâmetro ótimo (ou bom) de suavização para estimativa de densidade, é necessário estabelecer um critério para comparar os parâmetros de suavização. Uma abordagem visa minimizar o erro quadrado na estimativa. Seguindo a abordagem de Scott, resumimos brevemente algumas das principais ideias sobre os critérios de L2. O erro quadrático médio

(MSE) de um estimador de densidade ˆf (x) em x é: M SE ˆf (x) = E ˆf (x) − f (x) 2 = V ar ˆf (x) + vicio2 ˆf (x) .

O MSE mede o erro pontual. Considere o erro quadrado integrado (ISE), que é a norma L2.

ISE ˆf (x)= Z

ˆ_{f (x) − f (x)}2 dx

É mais simples considerar a estatística, o erro médio quadrático integrado (MISE), dado por: M ISE = E[ISE] = E Z ˆ_{f (x) − f (x)}2 dx = Z E ˆ_{f (x) − f (x)}2 dx = Z M SE ˆf (x) := IM SE (3)

(o erro quadrado médio integrado) pelo Teorema de Fubini. Sob algumas condições de regula-ridade em f , Scott mostra que:

(7)

M ISE = 1 nh + h2 12 Z f0(x)2dx + O 1 n + h 3 , e uma escolha ótima pra largura das barras é:

h∗_n=

6n R f0_(x)2_dx

1/3

com MISE assintótico:

AM ISE∗ = Z

f0(x)2dx 1/3

n−2/3

Na estimativa de densidade, f é desconhecido, então o h ótimo não pode ser calculado exa-tamente, mas o h assintoticamente ótimo depende da densidade desconhecida somente através de sua primeira derivada.

A Regra de Referência Normal de Scott, que é calibrada para uma distribuição normal com variância σ2, especifica uma largura de barra

ˆ

h := 3.49ˆσn1/3

onde ˆσ é uma estimativa do desvio padrão da população σ. Para distribuições normais com variância σ2, a largura ótima da barra é h∗_n = 2(31/3)π1/6σn−1/3. A substituição da estimativa da amostra do desvio padrão dá a referência normal regra para a largura ideal do compartimento.

Exemplo 03:

Este exemplo ilustra a regra de referência normal de Scott para determinar a largura da barra de um histograma de dados sobre as erupções do gêiser Old Faithful. Uma versão dos dados é fiel na distribuição base de R. Aqui, o conjunto de dados do geyser é analisado. Existem 299 observações sobre 2 variáveis, duração e tempo de espera. Uma estimativa de densidade para o tempo entre erupções (espera) usando a Regra de Scott é calculada abaixo. Para comparação, a estimativa de densidade é repetida usando break = ”scott” na função hist e truehist (MASS) com break = ”Scott”.A Regra de Scott fornece a estimativa para a largura de barra ˆh = 3.5(13.890320.1495465) = 7, 27037 e d(108 − 43)/7, 27037e = 9 barras.

library(MASS) #for geyser and truehist waiting <- geyser$waiting

n <- length(waiting)

# rounding the constant in Scott’s rule

# and using sample standard deviation to estimate sigma h <- 3.5 * sd(waiting) * n^(-1/3)

# number of classes is determined by the range and h m <- min(waiting)

M <- max(waiting)

nclass <- ceiling((M - m) / h) breaks <- m + h * 0:nclass

h.scott <- hist(waiting, breaks = breaks, freq = FALSE, main = "")

truehist(waiting, nbins = "Scott", x0 = 0, prob=TRUE, col = 0)

hist(waiting, breaks = "scott", prob=TRUE, density=5, add=TRUE)

(8)

waiting Density 50 70 90 110 0.000 0.005 0.010 0.015 0.020 0.025 0.030 40 60 80 100 0.000 0.005 0.010 0.015 0.020 0.025 0.030 waiting

Figura 3 – Estimativa do histograma da densidade do tempo de espera do Old Faithful no Exem-plo 10.3. (a) A Regra de Scott sugere 9 caixas. (b) hist com breaks = "scott"usa apenas 7 bins, após a função pretty ser aplicada nas pausas

Os histogramas de h.scott1 e h.scott2 são mostrados na Figura 3. Os histogramas sugerem que os dados não são normalmente distribuídos e que existem possivelmente dois modas em cerca de 55 e 75.

Regra de Freedman-Diaconis

A regra de referência normal de Scott acima é um membro de uma classe de regras que seleciona a largura da barra ideal de acordo com uma fórmula ˆh = T n1/3_{, onde T é uma}

estatística. Estas regras n1/3 _{estão relacionadas com o fato de que a taxa ótima de decaimento}

da largura da barra em relação às normas Lp é n1/3. Para a regra FD, a estatística T é o dobro

do intervalo interquartil da amostra. Isso é, ˆ

h = 2(IQR)n−1/3

onde IQR indica o intervalo interquartil da amostra. Aqui, o estimador ˆσ é proporcional ao IQR. O IQR é menos sensível que o desvio padrão amostral em relação a outliers nos dados. O número de classes é a amplitude amostral dividida pela largura da barra.

A Tabela 10.1 resume os resultados de um experimento de simulação comparando a Regra de Sturges, a Regra de Referência Normal de Scott e a Regra de Freedman-Diaconis. Cada entrada na tabela representa uma amostra exponencial padrão normal ou padrão. Essas distri-buições têm variância igual, mas cada regra produz números ótimos diferentes de barras, parti-cularmente quando o tamanho da amostra é grande. Parece que, mesmo para dados normais, a regra de Sturges está superando os dados.

N <- c(10, 20, 30, 50, 100, 200, 500, 1000, 5000, 10000) m <- length(N)

(9)

out[ ,1] <- N out[ ,5] <- N for (i in 1:m) { x <- rnorm(N[i]) out[i, 2:4] <- c(nclass.Sturges(x), nclass.scott(x), nclass.FD(x)) x <- rexp(N[i]) out[i, 6:8] <- c(nclass.Sturges(x), nclass.scott(x), nclass.FD(x)) } print(out)

Figura 4 – Número estimado de melhores intervalos de classe para dados simulados de acordo com três regras para histogramas

Estimação da densidade por polígono de frequência

Todas as estimativas de densidade de histograma são contínuas por partes, mas não contí-nuas em toda a faixa de dados. Um polígono de frequência fornece uma estimativa de densidade contínua a partir da mesma distribuição de frequência usada para produzir o histograma. O po-lígono de frequência é construído calculando a estimativa de densidade no ponto médio de cada intervalo de classe e usando interpolação linear para as estimativas entre pontos intermediários consecutivos.

Scott [243] deriva a largura do bin para construir o polígono de frequência ótima minimi-zando assintoticamente o IMSE. A largura ótima da bandeja de polígonos é:

hfp n = 2 49 15 Z f00(x)2dx −1/5 n−1/5 com IM SEf p = 5 12 49 15 Z f00(x)2dx 1/5 n−4/5+O(n−1)

Observe que, em geral, não pode ser calculado sem o conhecimento da distribuição subjacente. Na prática, f00é estimado (por exemplo, um método de diferença é frequentemente usado). Para densidades normais,R f00(x)2dx = 3/(8√πσ5) e e a largura da barra de polígono de frequência ideal é:

(10)

hfp

n = 2.15σn −1/5

.

Exemplo 04:

Construir uma estimativa de densidade de polígonos de frequência dos dados do geyser (MASS). Determine a largura do compartimento do polígono de frequência pela regra de re-ferência normal, ˆhfp

n = 2.15Sn−1/5, substituindo o desvio padrão da amostra S por σ. Os

cálculos são diretos usando o valor retornado do hist. Os vértices do polígono são a sequência de pontos (mids, density) do objeto hist retornado. Em seguida, o histograma com estimativa de densidade de polígonos de frequência é facilmente construído adicionando linhas ao gráfico que conecta esses pontos. Existem mais alguns passos envolvidos, para fechar o polígono nas extremidades onde a estimativa de densidade é zero. Para desenhar o polígono, existem várias opções, como segmentos ou polígono.

waiting <- geyser$waiting #in MASS n <- length(waiting)

# freq poly bin width using normal ref rule h <- 2.15 * sqrt(var(waiting)) * n^(-1/5)

# calculate the sequence of breaks and histogram br <- pretty(waiting, diff(range(waiting)) / h) brplus <- c(min(br)-h, max(br+h))

histg <- hist(waiting, breaks = br, freq = FALSE, main = "", xlim = brplus)

vx <- histg$mids #density est at vertices of polygon vy <- histg$density

delta <- diff(vx)[1] # h after pretty is applied k <- length(vx)

vx <- vx + delta # the bins on the ends

vx <- c(vx[1] - 2 * delta, vx[1] - delta, vx) vy <- c(0, vy, 0)

# add the polygon to the histogram polygon(vx, vy)

A largura da barra é h = 9, 55029. O polígono de frequência é mostrado na Figura 10.3. Se as estimativas de densidade forem necessárias para pontos arbitrários, o aproximunho pode ser aplicado para a interpolação linear.

(11)

waiting Density 40 60 80 100 120 0.000 0.005 0.010 0.015 0.020 0.025 0.030

Figura 5 – Estimativa do polígono de frequência da densidade do tempo de espera do Old Faithful no Exemplo 10.4

Para verificar a estimativa, verifique seR_{− inf}inf f (x)dx = 1ˆ # check estimates by numerical integration fpoly <- approxfun(vx, vy)

print(integrate(fpoly, lower=min(vx), upper=max(vx))) 1 with absolute error < 1.1e-14

Estimação de Densidade por Kernel

A estimativa da densidade por kernel generaliza a ideia de uma estimativa da densidade do histograma. Se um histograma com largura de barra h é construído a partir de uma amostra X1, · · · , Xn, então uma estimativa de densidade para um ponto x dentro do intervalo dos dados

é:

ˆ

f (x) = 1 2hn × k,

onde k é o número de pontos da amostra no intervalo (x − h, x + h). Este estimador pode ser escrito: ˆ f (x) = 1 n n X i=1 1 hw x − Xi h , (4)

quando w(t) = 1₂I(|t| < 1) é uma função de pesos. O estimador de densidade ˆf em (4) com w(t) = 1₂I(|t| < 1) é chamado estimador de densidade simples. Esta função de peso tem a propriedade que R₋₁1 w(t)dt = 1 e w(t) ≥ 0 então w(t) é uma densidade de probabilidade suportada no intervalo [−1, 1].

A estimativa da densidade por kernel substitui a função de peso w(t) no estimador simples pela função K(·) chamada de função kernel, tal que

(12)

Z ∞

−∞

K(t)dt = 1

Suponha que K(·) seja alguma densidade simétrica de probabilidade centrada na origem e defina ˆ fK(x) = 1 n n X i=1 1 hK x − Xi h . (5)

Então é uma função de densidade de probabilidade. Por exemplo, K(x) pode ser a den-sidade triangular em [1, 1] (o Kernel triangular) ou a denden-sidade normal padrão (o kernel gaus-siano). O estimador kernel triangular corresponde à soma de áreas de triângulos ao invés de retângulos. O estimador de kernel Gaussiano centraliza uma densidade normal em cada ponto de dados, conforme ilustrado na Figura (6).

O estimador de densidade de histograma corresponde ao estimador de densidade de núcleo retangular. A largura da barra h é um parâmetro de suavização; pequenos valores de h revelam características locais da densidade, enquanto grandes valores de h produzem uma estimativa de densidade mais suave. Na estimativa da densidade do kernel, h é chamado largura de barra, parâmetro de suavização ou largura do intervalo.

O efeito de variar a largura da barra é ilustrado na Figura (6). Os n = 10 pontos de amostra na Figura (6),

−0.77 −0.60 −0.25 0.14 0.45 0.64 0.65 1.19 1.71 1.74

foram gerados a partir da distribuição normal padrão. À medida que a largura da barra h di-minui, a estimativa de densidade torna-se mais bruta e h maior corresponde a estimativas de densidade mais suaves. (Este exemplo é apresentado simplesmente para ilustrar graficamente o método kernel; a estimativa de densidade não é muito útil para uma amostra tão pequena).

A Tabela (8) fornece algumas funções do kernel que são comumente aplicadas na estimativa de densidade, que também são mostradas na Figura (7). O núcleo de Epanechnikov foi sugerido pela primeira vez para a estimativa da densidade do kernel por Epanechnikov [85]. A eficiência de um kernel é definida por Silverman [252, p. 42].

Figura 6 – Estimativas do kernel da densidade usando um kernel Gaussiano com largura de barra h.

(13)

O reescalonado kernel Epanechnikov tem eficiência 1, que é um ótimo kernel no sentido de MISE. As eficiências relativas assintóticas dadas na Tabela (8) mostram, de fato, que não há muita diferença entre os núcleos se o critério do erro quadrático médio integrado for usado.

Para um kernel gaussiano, a largura da barra h que otimiza o IMSE é:

h = (4/3)1/5σn1/5 = 1.06σn1/5. (6) Essa escolha de largura da barra é uma escolha ideal (IMSE) quando a distribuição é normal. Se a densidade real não é unimodal, no entanto, (10.13) tenderá a ser mais suave. Alternativamente, pode-se usar uma estimativa mais robusta de dispersão em (6),

ˆ

σ = min(S, IQR/1.34),

onde S é o desvio padrão da amostra. Silverman [252, pág. 48] indica que uma escolha ainda melhor para um kernel gaussiano é a largura reduzida,

h = 0.9ˆσn1/5 = 0.9min(S, IQR/1.34)n1/5, (7) que é um bom ponto de partida apropriado para uma ampla gama de distribuições que não são necessariamente normais, unimodais ou simétricas.

Para um reescalonamento equivalente do kernel, a largura da barra h1 pode ser redimensio-nada

h2 ≈

σK1

σK2

(14)

A função de densidade em R calcula as estimativas de densidade do kernel para sete kernels. O parâmetro de suavização é bw (largura de barra), mas os kernels são dimensionados de modo que bw seja o desvio padrão do kernel. A “largura de banda canônica” pode ser obtida usando densidade com a opção give.Rkern = TRUE. As opções para o kernel são gaussianas, epanechni-kov, retangulares, triangulares, bilaterais, cosseno ou optcosina. Execute o exemplo (densidade) para ver vários gráficos das estimativas de densidade correspondentes. O núcleo cosseno dado na Tabela 10.2 corresponde à escolha da optcosina. O ajuste de largura de banda para núcleos equivalentes em densidade é de aproximadamente 1, portanto os núcleos são aproximadamente equivalentes.

Exemplo 05: A estimativa da densidade por kernel do tempo de espera do Old Faithful Neste exemplo, analisamos o resultado obtido pelos argumentos padrão para densidade. O método padrão aplica o kernel gaussiano. Para obter detalhes sobre a seleção de largura de barra padrão, consulte os tópicos de ajuda para largura de banda ou bw.nrd0.

library(MASS) waiting <- geyser$waiting n <- length(waiting) h1 <- 1.06 * sd(waiting) * n^(-1/5) h2 <- .9 * min(c(IQR(waiting)/1.34, sd(waiting))) * n^(-1/5) plot(density(waiting)) > print(density(waiting)) Call: density.default(x = waiting)

Data: waiting (299 obs.); Bandwidth ’bw’ = 3.998 x y

Min. : 31.01 Min. :3.762e-06 1st Qu.: 53.25 1st Qu.:4.399e-04 Median : 75.50 Median :1.121e-02 Mean : 75.50 Mean :1.123e-02 3rd Qu.: 97.75 3rd Qu.:1.816e-02 Max. :119.99 Max. :3.342e-02

sdK <- density(kernel = "gaussian", give.Rkern = TRUE) > print(c(sdK, sdK * sd(waiting))) [1] 0.2820948 3.9183881 > print(c(sd(waiting), IQR(waiting))) [1] 13.89032 24.00000 > print(c(h1, h2)) [1] 4.708515 3.997796

A estimativa de densidade padrão aplicou o kernel gaussiano com a largura de barra h = 3.998 correspondente à equação (10.14). O gráfico de densidade padrão com largura de barra de 3.998 é mostrado na Figura 10.8. Outras opções de largura de barra também são mostradas para comparação.

(15)

Figura 9 – Estimativas de densidade de kernel gaussiano do tempo de espera Old Faithful no Exemplo 10.7 usando densidade com diferentes larguras de banda.

Exemplo 06: O conjunto de dados em R é a quantidade média de precipitação de chuva em polegadas para 70 cidades dos Estados Unidos e Porto Rico. Usamos a função density para construir a estimativa da densidade por kernel usando as opções padrão e outras opções de largura de barra. n <- length(precip) h1 <- 1.06 * sd(precip) * n^(-1/5) h2 <- .9 * min(c(IQR(precip)/1.34, sd(precip))) * n^(-1/5) h0 <- bw.nrd0(precip) par(mfrow = c(2, 2))

plot(density(precip)) #default Gaussian (h0)

plot(density(precip, bw = h1)) #Gaussian, bandwidth h1 plot(density(precip, bw = h2)) #Gaussian, bandwidth h2 plot(density(precip, kernel = "cosine"))

(16)

Figura 10 – Estimativas de densidade de kernel de dados de receitas no Exemplo 10.8 usando densidade com diferentes larguras de barra.

Os três valores para o tamanho do intervalo são: > print(c(h0, h1, h2))

[1] 3.847892 6.211802 3.847892

Para estimar a densidade para novos pontos, use aprox. d <- density(precip)

xnew <- seq(0, 70, 10)

approx(d$x, d$y, xout = xnew) O código acima produz as estimativas: $x [1] 0 10 20 30 40 50 60 70 $y [1] 0.000952360 0.010971583 0.010036739 [4] 0.021100536 0.035776120 0.014421428 [7] 0.005478733 0.001172337

Para certas aplicações, é útil criar uma função para retornar as estimativas, o que pode ser realizado facilmente com aproxfun. Abaixo fhat é um função retornada por aproxfun.

> fhat <- approxfun(d$x, d$y) > fhat(xnew)

[1] 0.000952360 0.010971583 0.010036739 [4] 0.021100536 0.035776120 0.014421428 [7] 0.005478733 0.001172337

(17)

Para certas aplicações, é útil criar uma função para retornar as estimativas, o que pode ser realizado facilmente com aproxfun. Abaixo fhat é um função retornada por aproxfun.

> fhat <- approxfun(d$x, d$y) > fhat(xnew)

[1] 0.000952360 0.010971583 0.010036739 [4] 0.021100536 0.035776120 0.014421428 [7] 0.005478733 0.001172337

Referência