Introdu¸c˜ ao ` a probabilidade e ` a estat´ıstica II
Distribui¸c˜ao amostral
Prof. Alexandre G Patriota Sala: 298A
Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota
Estima¸c˜ ao
Quando n˜ao conhecemos a fun¸c˜ao densidade de probabilidades (ou fun¸c˜ao de probabilidades para o caso discreto) criamos um modelo estat´ıstico para que os dados indiquem a medida de probabilidade mais adequada a ser utilizada.
SejaX uma vari´avel aleat´oria de interesse com modelo estat´ıstico (X,P), sendoP ={Pθ: θ∈Θ}.
Um dos interesses ´e estimar θ, ou seja, escolher uma medida de probabilidades da fam´ıliaP para descrever o comportamento dos dados. Assim poderemos fazer inferˆencias sobre a vari´avel de interesse (calcular probabilidades, predizer valores, etc).
Para isso retiramos uma amostra deX (vari´aveis independentes e identicamente distribu´ıdas),X1,X2, . . . ,Xn em que todas essas vari´aveis possuem exatamente a mesma distribui¸c˜ao de X.
M´ etodos de estima¸c˜ ao
Pode-se obter estimadores para a quantidade desconhecidaθ aplicandos algum m´etodo de estima¸c˜ao. Os seguintes foram estudados:
1. M´etodos de momentos (igualando os momentos populacionais com os amostrais),
2. M´axima verossimilhan¸ca (maximizando a fun¸c˜ao de verossimilhan¸caL(θ)).
Existem outros m´etodos de estima¸c˜ao, a saber: m´ınimos quadrados, quasi-verossimilhan¸ca, verossimilhan¸ca perfilada, Bayesiano, etc.
Estudo do comportamento dos estimadores
Seja ˆθo estimador deθ obtido segundo algum dos m´etodos de estima¸c˜ao estudados.
Sabemos que o valor observado de ˆθ(a estimativa obtida) depende dos valores observados da amostrax1, . . . ,xn.
Se tivessemos retirado outra amostrax1∗, . . . ,xn∗ ter´ıamos obtido outra estimativa ˆθ∗.
Exemplo 1: Vari´ aveis de Bernoulli
Seja “X uma v.a. que vale 1 se o paciente tiver algum tipo de cˆancer e zero caso contr´ario”,
Ent˜ao, utilizaremos o modelo estat´ıstico de Bernoulli, em que para cadaθ∈Θ≡(0,1), temos:
Pθ(X = 1) =θ e Pθ(X = 0) = 1−θ, sendoθa probabilidade de ter algum tipo de cˆancer.
Para estimarθcriamos um experimento que produza uma amostra X1, . . . ,Xn, sendoXi = 1 se o paciente apresentar cˆancer e zero caso contr´ario.
Segundo o m´etodo de momentos (e m´axima verossimilhan¸ca) obtemos o seguinte estimador:
θˆ= ¯X
Exemplo 1: Vari´ aveis de Bernoulli
Paran= 3, a distribui¸c˜ao associada ao estimador da propor¸c˜ao (m´edia amostral) ´e:
(X1,X2,X3) θˆ P(X1,X2,X3) (0,0,0) 0 (1−θ)3 (1,0,0) 1/3 θ(1−θ)2 (0,1,0) 1/3 θ(1−θ)2 (0,0,1) 1/3 θ(1−θ)2 (1,1,0) 2/3 θ2(1−θ) (1,0,1) 2/3 θ2(1−θ) (0,1,1) 2/3 θ2(1−θ)
(1,1,1) 1 θ3
Na pr´atica podemos observar uma das possibilidades acima!
Qual a esperan¸ca e variˆancia de ˆθ= ¯X para este caso?
Exemplo 1
Paran geral, a distribui¸c˜ao associada a propor¸c˜ao amostral (m´edia amostral, pois ˆθ= ¯X) ´e:
P
θˆ= i n
= n
i
θi(1−θ)n−i,
parai = 0,1,2, . . . ,n. Ou seja,conseguimos saber a distribui¸c˜ao exata da m´edia amostral quando as vari´aveis envolvidas s˜aode Bernoulli. Calcule a esperan¸ca e variˆancia de ˆθ.
Note que se ˆθ= ni, ent˜ao observamos na nossa amostra i sucessos en−i fracassos:
(x1,x2, . . . ,xn) = (
i
z }| { 1,1, . . . ,1,
n−i
z }| { 0,0, . . . ,0).
Ser´a que sempre ´e poss´ıvel obter a distribui¸c˜ao da m´edia amostral?
Exemplo 2: Vari´ aveis de Poisson
Seja “X o n´umero de pacientes que entram em um hospital durante 8:00–9:00” uma vari´avel Poisson.
Ent˜ao, podemos utilizar o modelo estat´ıstico de Poisson, em que para cadaθ∈Θ≡R+:
Pθ(X =k) = exp(−θ)θk k!
Para estimarθcriamos um experimento que produza uma amostra deX, a saberX1, . . . ,Xn.
Segundo o m´etodo de momentos (e m´axima verossimilhan¸ca) obtemos o seguinte estimador:
θˆ= ¯X
Paran= 3, a distribui¸c˜ao associada ao estimador deθ (m´edia amostral) ´e:
(X1,X2,X3) θˆ P(X1,X2,X3) (0,0,0) 0 exp(−3θ) (1,0,0) 1/3 exp(−3θ)θ (0,1,0) 1/3 exp(−3θ)θ (0,0,1) 1/3 exp(−3θ)θ (2,0,0) 2/3 exp(−3θ)θ2/2 (0,2,0) 2/3 exp(−3θ)θ2/2 (0,0,2) 2/3 exp(−3θ)θ2/2 (1,1,0) 2/3 exp(−3θ)θ2 (1,0,1) 2/3 exp(−3θ)θ2 (0,1,1) 2/3 exp(−3θ)θ2 (3,0,0) 1 exp(−3θ)θ3/6 (0,3,0) 1 exp(−3θ)θ3/6 (0,0,3) 1 exp(−3θ)θ3/6
... ... ...
Note a dificuldade em listar todas as possibilidades...
Distribui¸c˜ ao da m´ edia amostral para n grande
Conseguimos derivar a distribui¸c˜ao da m´edia amostral para vari´aveis de Bernoulli.
Por´em, observamos certa dificuldade em encontrar a distribui¸c˜ao da m´edia amostral para outros tipos de vari´aveis (algumas vari´aveis discretas e cont´ınuas).
Veremos que quando o tamanho amostraln´e grande, poderemos aproximar a distribui¸c˜ao da m´edia amostral pela distribui¸c˜ao normal.
Distribui¸c˜ ao da m´ edia amostral: Caso Bernoulli
n=10 e θ =0.1
θ^
0.00.10.20.3
0 0.10.20.30.40.50.60.70.80.9 1
n=50 e θ =0.1
θ^
0.000.050.100.15
0 0.08 0.20.30.40.50.60.70.80.9 1
n=100 e θ =0.1
θ^
0.000.040.080.12
0 0.080.190.30.40.50.60.7 0.80.9 1
n=10 e θ =0.5
θ^
0.000.050.100.150.20
0 0.10.20.30.40.50.60.70.80.9 1
n=50 e θ =0.5
θ^
0.000.020.040.060.080.10
0 0.08 0.20.30.40.50.60.70.80.9 1
n=100 e θ =0.5
θ^
0.000.020.040.06
0 0.080.190.30.40.50.60.7 0.80.9 1
n=10 e θ =0.9
θ
^
0.00.10.20.3
0 0.10.20.30.40.50.60.70.80.9 1
n=50 e θ =0.9
θ
^
0.000.050.100.15
0 0.08 0.20.30.40.50.60.70.80.9 1
n=100 e θ =0.9
θ
^
0.000.040.080.12
0 0.080.190.30.40.50.60.7 0.80.9 1
Distribui¸c˜ ao da m´ edia amostral: Caso Bernoulli
Os gr´aficos sugerem que a distribui¸c˜ao m´edia amostral para o caso Bernoulli se aproxima de uma distribui¸c˜ao normal `a medida quen cresce.
Observe que o ponto de localiza¸c˜ao da m´edia amostral ´eθ e a variabilidade vai diminuindo quandon cresce.
Assim quandon´e grande, podemos ent˜ao aproximar a distribui¸c˜ao da propor¸c˜ao amostral padronizando a m´edia amostral:
X¯ −E( ¯X) pVar( ¯X)
≈N(0,1)
Precisamos calcular a esperan¸ca matem´atica e a variˆancia de ¯X.
Propriedades da M´ edia e Variˆ ancia – para o caso geral
SejaX uma vari´avel aleat´oria e X1, . . . ,Xn uma amostra aleat´oria (independentes e identicamente distribu´ıdas) deX.
Ent˜ao:
E( ¯X) =E 1
n
n
X
i=1
Xi
= 1 n
n
X
i=1
E(Xi) =E(X) e
Var( ¯X) =Var 1
n
n
X
i=1
Xi
= 1 n2
n
X
i=1
Var(Xi) = Var(X) n
Importante: A variˆancia da soma ser´a a soma das variˆancias quando as vari´aveis envolvidas forem independentes.
Distribui¸c˜ ao da m´ edia amostral: Caso Bernoulli
Utilizando as regras da esperan¸ca matem´atica, para o caso Bernoulli temos queEθ(X) =θe Varθ(X) =θ(1−θ).
Portanto
Eθ( ¯X) =θ e
Varθ( ¯X) = θ(1−θ) n
Assim, quandon ´e grande:
X¯ ≈N
θ,θ(1−θ) n
ou padronizando:
√n ( ¯X −θ)
pθ(1−θ) ≈N(0,1)
Teorema do Limite Central
De forma geral, a aproxima¸c˜ao acima vale para outras vari´aveis aleat´orias, n˜ao s´o para a Bernoulli.
SejaX1, . . . ,Xn uma amostra aleat´oria deX tal que Eθ(X) =µθ e exista a variˆancia Varθ(X) =σ2θ <∞. Ent˜ao, a aproxima¸c˜ao
√n( ¯X−µθ) q
σ2θ
≈N(0,1)
´e v´alida paran grande.
Note queX pode ser qualquer distribui¸c˜ao que satisfa¸ca σθ2<∞:
o modelo estat´ıstico pode ser Bernoulli, Binomial, Poisson, Exponencial, Uniforme, etc.
Verifique se vale para a t-Student com 1 grau de liberdade.
Exemplos
Ache a distribui¸c˜ao amostral aproximada (usando o teorema do limite central) para os seguintes modelos estat´ısticos
1. Exponencial 2. Poisson 3. Uniforme
Caso especial
Um caso especial ocorre para o modelo estat´ıstico Normal, ou seja, quandoX ∼N(µ, σ2) e θ= (µ, σ2)∈Θ≡R×R+. Neste caso temos que
SejaX1, . . . ,Xn uma amostra aleat´oria deX e pelo m´etodo de momentos (e de m´axima verossimilhan¸ca) temos que ˆµ= ¯X. Sabemos que
√n( ¯X −µ)
√
σ2 ∼N(0,1)
´e v´alida para qualquer valor den≥1.
Ou seja, quando assumimos o modelo normal, a distribui¸c˜ao de ¯X ser´a normalEXATA.Para outros casos temos apenas uma aproxima¸c˜ao.