Rela¸c˜ oes entre a distribui¸c˜ ao normal e a χ

Cook’s distance plot

23.1 Rela¸c˜ oes entre a distribui¸c˜ ao normal e a χ

Resultado 1: Se Z ∼ N(0, 1) ent˜ao Z2 _{∼ χ}2 (1).

Vejamos como ilustrar este resultado. Inicialmente vamos definir o valor da semente de números aleatórios para que os resultados possam ser reproduzidos. Vamos come¸car gerando uma amostra de 1000 números da distribui¸cão normal padrão. A seguir vamos fazer um histograma dos dados obtidos e sobrepor a curva da distribui¸cão teórica. Fazemos isto com os comando abaixo e o resultado está no gráfico da esquerda da Figura 49.

> z <- rnorm(1000)

> hist(z, prob = T, main = "") > curve(dnorm(x), -4, 4, add = T)

Note que, para fazer a compara¸cão do histograma e da curva teórica é necessário que o histograma seja de frequências relativas e para isto usamos o argumento prob = T.

Agora vamos estudar o comportamento do quadrado da variável. O gráfico da direita daFigura 49 mostra o histograma dos quadrados do valores da amostra e a curva da distribui¸cão de χ2

(1).

> hist(z^2, prob = T, main = "")

> curve(dchisq(x, df = 1), 0, 10, add = T)

Nos gráficos anteriores comparamos o histograma da distribui¸cão emp´ırica obtida por simula¸cão com a curva teórica da distribui¸cão. Uma outra forma e mais eficaz forma de comparar distribui¸cões

emp´ıricas e teóricas é comparar os quantis das distribui¸cões e para isto utilizamos o qq-plot. O qq-plot é um gráfico dos dados ordenados contra os quantis esperados de uma certa distribui¸cão. Quanto mais próximo os pontos estiverem da bissetriz do primeiro quadrante mais próximos os dados observados estão da distribui¸cão considerada. Portanto para fazer o qqplot seguimos os passos:

1. obter os dados,

2. obter os quantis da distribui¸c˜ao te´orica,

3. fazer um gr´afico dos dados ordenados contra os quantis da distribui¸c˜ao.

Vamos ilustrar isto nos comandos abaixo. Primeiro vamos considerar como dados os quadrados da amostra da normal obtida acima. Depois obtemos os quantis te´oricos da distribu¸c˜ao χ2 _{usando a}

fun¸cão qchisq em um conjunto de probabilidades geradas pela fun¸cão ppoints. Por fim usamos a fun¸cão qqplot para obter o gráfico mostrado na Figura 50, adicionando neste gráfico a bissetriz do primeiro quadrante para facilitar a avalia¸cão do ajuste.

> quantis <- qchisq(ppoints(length(z)), df = 1) > qqplot(quantis, z^2)

> abline(0, 1)

Note que o comando qchisq(ppoints(length(z)), df=1) acima est´a concatenando 3 comandos e calcula os quantis da χ2 _{a partir de uma sequˆencia de valores de probabilidade gerada por ppoints.}

O número de elementos desta sequência deve igual ao número de dados e por isto usamos length(z).

0 2 4 6 8 10 12 0 2 4 6 8 quantis z^2

Figura 50: Comparando dados e quantis da χ2 _{utilizando o qq-plot}

Resultado 2: Se Z1, Z2, . . . Zn ∼ N(0, 1) ent˜ao

P_n

1Zi2 ∼ χ2(n).

Para ilustrar este resultado vamos gerar 10.000 amostras de 3 elementos cada da distribui¸câo normal padrão, elevar os valores ao quadrado e, para cada amostra, somar os quadrados dos três

0 5 10 15 20 25 30 0.00 0.05 0.10 0.15 0.20 0.25 x dchisq(x, df = 3) 0 5 10 15 20 0 5 10 15 20 qchisq(ppoints(length(sz2)), df = 3) sz2

Figura 51: Histograma da uma amostra da soma dos quadrados de três valores da normal padrão e a curva teórica da distribui¸cão de χ2

(3) (esquerda) e o respectivo qq-plot.

números. Na Figura 51 mostramos no gráfico à esquerda, o histograma dos valores obtidos com a curva da distribui¸cão esperada e no da direita o qq-plot para a distribui¸cão χ2

(3). > set.seed(23) > z <- matrix(rnorm(30000), nc = 3) > sz2 <- apply(z^2, 1, sum) > par(mfrow = c(1, 2)) > curve(dchisq(x, df = 3), 0, 30)

> hist(sz2, prob = T, main = "", add = T)

> qqplot(qchisq(ppoints(length(sz2)), df = 3), sz2) > abline(0, 1)

23.2 Distribui¸cão amostral da média de amostras da distribui¸cão normal

Resultado 3: Se Y1, Y2, . . . Yn∼ N(µ, σ2) ent˜ao ¯y ∼ N(µ, σ2/n).

Neste exemplo vamos obter 1000 amostras de tamanho 20 de uma distribui¸cão normal de média 100 e variância 30. Vamos organizar as amostras em uma matriz onde cada coluna corresponde a uma amostra. A seguir vamos calcular a média de cada amostra.

> set.seed(381)

> y <- matrix(rnorm(20000, mean = 100, sd = sqrt(30)), nc = 1000) > ybar <- apply(y, 2, mean)

> mean(ybar)

[1] 99.9772

> var(ybar)

Pelo Resultado 3 acima esperamos que a média das médias amostrais seja 100 e a variância seja 1.5 (= 30/20), e que a distribui¸cão das médias amostrais seja normal, valores bem próximos dos obtidos acima, sendo que as diferen¸cas são devidas ao erro de simula¸cão pro trabalharmos com amostras de tamanho finito. Para completar vamos obter o gráfico com o histograma das médias das amostras e a distribui¸cão teórica conforme Figura 52 e o respectivo qq-plot.

> par(mfrow = c(1, 2))

> curve(dnorm(x, mean = 100, sd = sqrt(30/20)), 95, 105) > hist(ybar, prob = T, add = T)

> qqnorm(ybar) > qqline(ybar)

Note que para obter o qq-plot neste exemplo utilizamos as fun¸cões qqnorm qqline já dispon´ıveis no R para fazer qq-plot para distribui¸cão normal.

96 98 100 102 104 0.00 0.10 0.20 0.30 x dnorm(x, mean = 100, sd = sqrt(30/20)) −3 −2 −1 0 1 2 3 96 98 100 102 Normal Q−Q Plot Theoretical Quantiles Sample Quantiles

Figura 52: Histograma de uma amostra da distribui¸cão amostral da média e a curva teórica da distribui¸cão e o respectivo qq-plot.

23.3 Exerc´ıcios

1. Ilustrar usando simula¸c˜ao o resultado que afirma que para o estimador S2 ₌ P(Yi− ¯Y )2

n−1 da

variância de uma distribui¸cão normal, a variável V = (n − 1)S2_/σ2 _{tem distribui¸cão χ}2

n−1.

DICA: Voce pode come¸car pensando nos passos necessários para ilustrar este resultado: escolha os parâmetros de uma distribui¸cão normal,

escolha o tamanho de amostra n e o n´umero de simula¸c˜oes N, gere N amostras de tamanho n,

para cada amostra calcule S2 _{e V = (n − 1)S}2_/σ2_,

fa¸ca um histograma com os valores V e compare com a curva de uma distribui¸c˜ao χ2

n−1.

2. No exerc´ıcio anterior compare os valores te´oricos E[S2_{] = σ}2 _{e V ar[S}2_{] =} 2σ2

n−1 com os valores

3. Seja Y1, . . . , Yn a.a. de uma distribui¸c˜ao N(µ, σ2). Ilustrar o resultado que justifica o teste-t

para m´edia de uma amostra,

Y − µ

S/√n ∼ tn−1

onde S ´e o desvio padr˜ao da amostra e n o tamanho da amostra.

DICA: come¸ce verificando passo a passo, como no exerc´ıcio anterior, o que ´e necess´ario para ilustrar este resultado.

4. Ilustrar o resultado que diz que o quociente de duas vari´aveis independentes com distribui¸c˜ao

24 Agrupando comandos, execu¸c˜ao condicional, controle de

fluxo, ”loops” e a ”fam´ılia” *apply

24.1 Agrupando comandos

O R é uma linguagem que interpreta expressões, o que implica que o único tipo de comando usado é uma expressão ou fun¸cão que executa o processamento da requisi¸cão e retorna algum resultado. Nesta sessão vamos alguns formatos para facilitar/agilizar o uso de comandos.

E poss´ıvel atribuir os mesmos valores a vários objetos de uma só vez utilizando atribui¸cões múl- tiplas de valores. > a <- b <- 10 > a [1] 10 > b [1] 10 > x <- y <- z <- numeric(5) > x [1] 0 0 0 0 0 > y [1] 0 0 0 0 0 > z [1] 0 0 0 0 0

Um grupo de comandos podem ser agrupado com "{ }" e separados por ";" para digita¸cão em uma mesma linha. Em certas situa¸cões, como no ”prompt”do R as chaves são opcionais.

> { + x <- 1:3 + y <- x + 4 + z <- y/x + } > x <- 1:3 > y <- x + 4 > z <- y/x > x [1] 1 2 3 > y [1] 5 6 7 > z [1] 5.000000 3.000000 2.333333

No documento Mini-curso EMBRAPA. Paulo Justiniano Ribeiro Junior. Brasília, 30/05 a 03/06 de 2005 (última revisão: 5 de janeiro de 2007) (páginas 158-164)