• Nenhum resultado encontrado

Distribuições Amostrais

N/A
N/A
Protected

Academic year: 2022

Share "Distribuições Amostrais"

Copied!
36
0
0

Texto

(1)

Distribuições Amostrais

O problema da inferência estatística: fazer uma afirmação sobre os parâmetros da população θ (média, variância, etc) através da amostra.

Usaremos uma AAS de n elementos sorteados dessa população, nossa decisão será baseada na estatística T =f(X

1

, ...,X

n

).

Colhida essa amostra, observamos um

particular valor de T: t

0

, e baseados nesse

valor é que faremos a afirmação sobre o

parâmetro populacional θ.

(2)
(3)

• Vamos observar n elementos, extraídos ao acaso e com reposição da população;

• Para cada elemento selecionado, observamos o valor da variável X de interesse.

Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por

X1, X2, ..., Xn.

(4)

Distribuição amostral da média

Exemplo 1: Considere uma população em que uma variável X assume um dos valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X é dada por

1/5 7 2/5

1/5 1/5

P(X=x)

5 3

1 x

É fácil ver que x = E(X) = 4,2 ,

x2 = Var(X) = 4,16.

(5)

Vamos relacionar todas as amostras possíveis de tamanho n = 2, selecionadas ao acaso e com reposição dessa população, e encontrar a distribuição da média amostral

2 , 1 X

X

X2

sendo

X1: valor selecionado na primeira extração; e X2: valor selecionado na segunda extração.

(6)

Amostra (X1,X2) Probabilidade Média Amostral

(1,1) 1/25 1

(1,3) 1/25 2

(1,5) 2/25 3

(1,7) 1/25 4

(3,1) 1/25 2

(3,3) 1/25 3

(3,5) 2/25 4

(3,7) 1/25 5

(5,1) 2/25 3

(5,3) 2/25 4

(5,5) 4/25 5

(5,7) 2/25 6

(7,1) 1/25 4

(7,3) 1/25 5

(7,5) 2/25 6

(7,7) 1/25 7

1

(7)

6/25 4 5/25

2/25 1/25

3 2

1

1/25 7 4/25

6/25

6 5

) P(Xx

x

A distribuição de probabilidade de para n = 2 é X

. 2 2,08

) X Var(

4,2

) X E(

caso,

Neste

2 x x

 

e

(8)

Repetindo o mesmo procedimento, para amostras de tamanho n = 3, temos a seguinte distribuição de probabilidade de , X

1 1/125

5/3 3/125

7/3 9/125

3 16/125

11/3 24/125 13/3 27/125

5 23/125

17/3 15/125 19/3 6/125

7 1/125

13/3

) P(X x x

3 1,39

) X Var(

4,2

) X E(

caso,

Neste

2 x x

 

e

.

(9)

Figura 1: Histogramas correspondentes às distribuições de X e de , para amostras de {1,3,5,5,7}. X

(10)

• para n suficientemente grande, a forma do histograma aproxima-se de uma distribuição normal.

• conforme n aumenta, os valores de tendem a se concentrar cada vez mais em torno de

X

E( ) = 4,2 = x ,

uma vez que a variância vai diminuindo;

X

Dos histogramas, observamos que

• os casos extremos passam a ter pequena probabilidade de ocorrência;

(11)

Figura 2: Histogramas correspondentes às distribuições de para amostras de algumas populações.

X

2002, 273

(12)

Esses gráficos sugerem que,

quando n aumenta, independentemente da forma da distribuição de X , a distribuição de probabilidade da média amostral aproxima-se de uma distribuição normal.

X

(13)

Teorema do Limite Central

Seja X uma v. a. que tem média

e

variância 2. Para uma amostra X1, X2, ..., Xn , retirada ao acaso e com reposição de X, a distribuição de probabilidade da média amostral aproxima-se, para n grande, de uma distribuição normal, com média e variância 2 / n , ou seja,

X

mente.

aproximada grande,

n para n ,

2 ,

N

~

X

 

 

(14)

Comentários:

• Se a distribuição de X é normal, então tem distribuição normal exata, para todo n.

X

• O desvio padrão

, que é

o desvio padrão da média amostral, também é denominado erro padrão.

n σ n

σ 2 

(15)

Exemplo 2:

Uma maquina enchia pacotes de café cujos pesos seguiam uma distribuição N(500, 100). Colhendo-se uma amostra de n=100 pacotes e pesando-os. Se a máquina estiver regulada, qual a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500g de menos de 2 gramas?

Exemplo 3:

Suponha que p = 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de n=10 estudantes e calculamos proporção de mulheres na amostra. Qual a probabilidade de que a proporção amostral difira de p em menos de 0,01?

(16)

Distribuição amostral de uma Proporção

É fácil ver que x = E(X) = p ,

x2 = Var(X) =p(1-p)

X = 1, se o indivíduo for portador da característica;

= 0, caso contrário;

Retirada de uma AAS(amostragem aleatória simples) dessa população, e indicando por Yn o total de indivíduos portadores da característica na amostra, então

Yn ~b(n, p)

(17)

Outras Distribuições Amostrais

(18)
(19)
(20)
(21)
(22)

Dimensionamento da amostra

(23)

Seja P( ) = , a probabilidade da média amostral estar a uma distância de, no máximo , da média populacional (desconhecida),

X

 

n ,

Z n

P n

n - X

n P

X P

- X P

 

 

 

 

 

 

 

 

 

 

sendo Z ~ N(0,1) .

ou seja,

(24)

Dimensionamento da amostra

conhecendo-se o desvio padrão

de X, o erro

da estimativa e o coeficiente de confiança do intervalo, sendo z tal que

σ , ε

n z

2

2

 

 

 

n ,

z relação

da partir

A 

N(0,1).

~ Z e z) Z (-z

P  

o tamanho da amostra n é determinado por

(25)

n = ?? tal que

= 50 reais,

= 0,95  z = 1,96

Exemplo 4:

A renda per-capita domiciliar numa certa região tem distribuição normal com desvio padrão = 250 reais e média µ desconhecida.

Se desejamos estimar a renda média µ com erro = 50 reais e com uma confiança  = 95%, quantos domicílios devemos consultar?

X : renda per-capita domiciliar na região X ~ N( ; 250

2)

(26)

Aproximadamente 97 domicílios devem ser consultados.

 

96,04

50 250

1,96

2

2

 

 

 

2

z

2

n

Então,

 

 

 

(27)

Exemplo 5:

A quantidade de colesterol X no sangue das alunas de uma universidade segue uma distribuição de probabilidades com desvio padrão

= 50 mg/dl e média µ desconhecida. Se desejamos estimar a quantidade média µ de colesterol com erro

= 20 mg/dl e confiança de 90%, quantas alunas devem realizar o exame de sangue?

X: quantidade de colesterol no sangue das alunas da universidade

= 50 mg/dl

n = ?? tal que

= 20 mg/dl

= 0,90  z = 1,65

(28)

Assim, aproximadamente 18 alunas devem realizar o exame de sangue.

 

17,02

20 50

1,65

2

2

 

 

 

Supondo que o tamanho da amostra a ser selecionada é suficientemente grande, pelo Teorema do Limite Central temos:

2

z

2

n  

 

 

(29)

Como não conhecemos p, podemos usar o fato de que p(1-p)<=1/4, para todos p.

No caso de proporção, usando a aproximação normal para proporção amostral, temos

) 1

z ( n

2

p p

 

 

 

(30)

Da relação

p), z p(1

n

2

 

 

 

segue que o tamanho amostral n, dados  e a margem de erro

, tem a forma

, n

p) z p(1

onde z é tal que

= P(-z  Z  z) e Z ~ N(0,1).

Dimensionamento da amostra

Entretanto, nesta expressão, n depende de p(1-p), que é desconhecido.

• Como calcular o valor de n?

(31)

Pela figura observamos que:

•a função p(1-p) é uma parábola simétrica em torno de p = 0,5;

Assim, na prática, substituímos p(1-p) por seu valor máximo, obtendo

, z 20,25



 

  n

que pode fornecer um valor de n maior do que o necessário.

Gráfico da função p(1-p), para 0  p  1.

•o máximo de p(1-p) é 0,25, alcançado quando p = 0,5.

(32)

No exemplo da USP (Exemplo 1) suponha que nenhuma amostra foi coletada. Quantos estudantes precisamos consultar de modo que a estimativa pontual esteja, no máximo, a 0,02 da proporção verdadeira p, com uma probabilidade de 0,95?

. estudantes

2401 0,02 0,25

p) 1,96 -

0,02 p(1 n 1,96

2 2

 

 

 



 

 

Dados do problema:

= 0,02 (erro da estimativa);

P(

) =  = 0,95  z = 1,96.

Exemplo 6:

(33)

Pergunta: É possível reduzir o tamanho da amostra quando temos alguma informação a respeito de p?

Em alguns casos, podemos substituir a

informação p(1-p), que aparece na expressão de n, por um valor menor que 0,25.

Por exemplo, sabemos que:

•p não é superior a 0,30, ou

•p é pelo menos 0,80, ou

•p está entre 0,30 e 0,60.

Resposta: Depende do tipo de informação sobre p.

(34)

Vimos que, se nada sabemos sobre o valor de p, no cálculo de n, substituímos p(1-p) por seu valor máximo, e calculamos

. z 0,25

n

2

Se temos a informação de que p é no máximo 0,30 (p  0,30), então o valor máximo de p(1-p) será dado por 0,3x0,7 = 0,21.

Redução do tamanho da amostra

0,21.

n z

2

 

 

 

Logo, reduzimos o valor de n para

(35)

Agora, se p é pelo menos 0,80 (p  0,80), então o máximo de p(1-p) é 0,8 x 0,2 = 0,16 e temos

. z 0,16

n

2

 

 

 

Mas, se 0,30 o máximo de

p

0,60 , p(1-p) é 0,5x0,5 = 0,25 e, neste caso, não há redução, ou seja,

0,25.

n z

2

 

 

 

(36)

Exemplo 7:

No Exemplo 6, suponha que temos a informação de que no máximo 30% dos alunos da USP foram ao teatro no último mês.

conseguindo uma redução de 2401 – 2017 = 384 estudantes.

Portanto, temos que

p  0,30 e, como vimos, o máximo de p(1-p) neste caso é 0,21.

, estudantes

2017 0,02 0,21

0,21 1,96 n z

2 2

 

 

 



 

 

Assim, precisamos amostrar

Referências

Documentos relacionados

Logo, para além de ser um desafio, esse questionamento deve ser visto como um objetivo, por isso, as instituições educacionais, públicas e privadas, precisam

A Aliança para o Controle do Tabagismo – ACT – acaba de lançar uma análise, feita pelo economista Roberto Iglesias, da PUC-Rio, que derruba um

O objetivo do presente trabalho é avaliar as taxas de resfriamento noturno em noites com cobertura de céu nublado e limpo na cidade de São Paulo e associar estas taxas ao saldo de

Essas informações são de caráter cadastral (técnico responsável pela equipe, logradouro, etc.), posicionamento da árvore (local na rua, dimensões da gola, distância da

Outro ponto importante referente à inserção dos jovens no mercado de trabalho é a possibilidade de conciliar estudo e trabalho. Os dados demonstram as

De acordo com os resultados obtidos, é possível concluir que a área de suprimentos é vista pela alta diretoria como um fator estratégico e relevante para o desenvolvimento

A RCD n°185/2001 •• Regra II, expedida pela ANVISA, bem como a Lei 6360/76, estabelecem com precisão a necessidade de Autorização do Ministério da Saúde, não só das empresas

Oliveira (2006) avaliou os efeitos da suplementação de ração com um complexo enzimático contendo celulase, protease e amilase sobre a digestibilidade de