Elemente de Teoria estima¸tiei prin intervale de încredere
Conf. dr. habil. Eduard Roten¸stein
1 Considera¸tii asupra mediei ¸si dispersiei de selec¸tie pentru caracteristica unei popula¸tii
Consider˘am spa¸tiul m˘asurabil ( ;F), undeF este o algebr˘a (o submul¸time a luiP( )ce con¸tine pe ¸si este închis˘a la complementariere ¸si la reuniuni num˘arabile). CaracteristicaX urm˘arit˘a poate fi reprezentat˘a de o variabil˘a aleatoare definit˘a pe ( ;F):Construim spa¸tiul selec¸tiilor de volum n;( (n);F(n)); cu ajutorul produsele carteziene:
(n)= ::: ; F(n)=F F ::: F:
Elementul!(n)= (!1; !2; :::; !n)2 (n)se nume¸ste selec¸tie de volumn:Ovariabil˘a aleatoare de selec¸tie repetat˘ade volumneste definit˘a astfel:
Xi: ( (n);F(n);P(n))!(R;BR; ); Xi(!(n)) =X(!i); i= 1;2; :::; n:
Aceste variabile aleatoare sunt independente stochastic deoarece X(!i); i = 1;2; :::; nau aceast˘a proprietate.
De asemenea, din modul lor de definire rezult˘a c˘a sunt identic repartizate cu caracteristica X studiat˘a, mai precis, pentru fiecarei 2 f1;2; :::; ng; FXi : R![0;1]; FXi(x) = FX(x);unde FX este func¸tia de reparti¸tie a caracteristicii X:Prin urmare, vor avea aceea¸si func¸tie de frecven¸t˘a (dac˘a sunt variabile de tip discret) sau aceea¸si densitate de reparti¸tie (dac˘a sunt variabile aleatoare de tip absolut continuu).
Media de selec¸tie repetat˘a de volumneste statistica X(!(n)) = 1
n Xn i=1
Xi(!(n)); !(n)2 (n):
Pentru fiecare!(n)fixat, evaluarea mediei de selec¸tie este media statistic˘a (empiric˘a)x= (Pn
i=1xi)=n:
Propozi¸tia 1.1 Media de selec¸tie are urm˘atoarele propriet˘a¸ti:
(1) E(X) = ; D2(X) =
2
n; D(X) = p
n: (2) X a:s:! ; pentrun!+1: Demonstra¸tie. Pentru primul punct avem:
E(X) =E 1 n
Xn i=1
Xi
!
= 1 n
Xn i=1
E(Xi) = ¸si D2(X) =D2 1 n
Xn i=1
Xi
!
= 1 n2
Xn i=1
D2(Xi) =
2
n:
Pentru punctul(2), deoareceE(X) = ; D2(X) = 2;iar variabilele aleatoare de selec¸tie sunt independente în totalitate, atunci conform Legii tari a numerelor mari rezult˘a c˘a
X = 1 n
Xn i=1
Xi a:s:!E(X1) = ; pentrun!+1:
Lema 1.1 Dac˘aXi N( i; i2)sunt variabile aleatoare independente stochastic ¸siai2R; i= 1;2; :::; n, atunci variabila aleatoareX =Pn
i=1aiXiare urm˘atoarea reparti¸tie:
X N
Xn i=1
ai i; Xn i=1
a2i i2
! :
În particular, pentruai= 1=n¸si = i;pentru oricarei;atunciX N ; 2=n :
Demonstra¸tie. Pentru fiecareXk N( k; 2k);func¸tia caracteristic˘a este 'Xk : R!C; 'Xk(t) = eit k 12t2 k2: Deoarece variabilele aleatoareXk; k= 1; nsunt independente stochastic, func¸tia caracteristic˘a a luiX are for- mula:
'Xi(t) =E eitXk =E eitPn
k=1akXk = Yn k=1
E eitakXk = Yn k=1
'Xk(akt) = Yn k=1
eit kak
a2 k 2
kt2 2
= exp
" n X
k=1
ak k
! it t2
2 Xn k=1
a2k 2k
!#
; 8t2R: Teorema de inversiune conduce la faptul c˘aX N Pn
i=1ai i;Pn
i=1a2i i2 ;iar demonstra¸tia este încheiat˘a.
Dispersie de selec¸tie repetat˘a de volumneste statistica V ar(X; !(n)) =S2(!(n)) = 1
n Xn i=1
Xi(!(n)) X(!(n))
2
; !(n)2 (n):
Pentru fiecare!(n)fixat, evaluarea dispersiei de selec¸tie este dispersia statistic˘a (empiric˘a)s2:Abaterea(saude- via¸tia standard)de selec¸tiese define¸ste ca fiindS =p
S2;iardispersia(sauvarian¸ta)modificat˘a de selec¸tie, respectiv abaterea(devia¸tia standard)modificat˘a de selec¸tiesunt:
(S )2= n
n 1S2= 1
n 1
Xn i=1
Xi X 2; respectiv, S =p (S )2:
Dispersia de selec¸tie modificat˘a este un estimator absolut corect al dispersiei teoretice 2;în timp ce dispersia de selec¸tie nu este un estimator absolut corect al acelea¸si cantit˘a¸ti, fiind un estimator deplasat. Pentru selec¸tii de volum mic, dispersia de selec¸tie modificat˘a este deci un estimator mai bun pentru dispersia teoretic˘a. Acest avantaj dispare îns˘a dac˘a volumul de selec¸tie cre¸ste.
Propozi¸tia 1.2 Dispersia de selec¸tie are urm˘atoarele propriet˘a¸ti:
E(S2) =n 1 n
2; E (S )2 = 2; S2 a:s:! 2; (S )2 a:s:! 2; pentrun!+1: Dac˘a presupunem, în plus, c˘a exist˘a momentul centrat empiric de ordinul4; 40 = n1Pk
i=1(xi x)4al valorilor observate ale caracteristicii, atunci au loc estim˘arile (pentru detalii suplimentare, cititorul interesat poate studia Kendall, [9, Chapter 9, Standard errors]):
D2(S2)' 1 n
40 ( 20)2 ; ¸si D2((S )2) = n2
(n 1)2D2 S2 ' n (n 1)2
40 ( 20)2 : Demonstra¸tie. Not˘am =E(X);iar propriet˘a¸tile mediei ¸si ale variabilelor aleatoare de selec¸tie conduc la:
E(S2) = E 1 n
Xn i=1
Xi X 2
!
= 1 nE
Xn i=1
Xi + X 2
!
= 1 nE
Xn i=1
(Xi )2+ Xn i=1
X 2 2 X
Xn i=1
(Xi )
!
= 1 n
Xn i=1
E (Xi )2 2nE X 2 +nE X 2
!
= 1
n nE (X )2 nE X 2 =D2(X) D2 X
= 2
2
n = n 1 n
2
Ob¸tinem, de asemenea, c˘a
E (S )2 =E n
n 1S2 = n
n 1E(S2) = n
n 1
n 1
n
2= 2:
În ceea ce prive¸ste convergen¸tele, proced˘am astfel. Cum variabile de selec¸tie sunt idependente ¸si identic repar- tizate, atunci p˘atratele lor au aceea¸si proprietate, iarE X2 = 2+ 2<+1:Deoarece
S2= 1
n 1
0
@ Xn i=1
Xi2 1 n
Xn i=1
Xi
!21 A= n
n 1
0
@1 n
Xn i=1
Xi2 1 n
Xn i=1
Xi
!21 A;
iar Legea tare a numerelor mari permite trecerea la limit˘a X a:s:! ; ¸si X2 a:s:! ; pentrun ! +1; atunci concluzia dorit˘a este o simpl˘a consecin¸t˘a.
2 Intervale de încredere pentru o singur˘a selec¸tie
Consider˘am o caracteristic˘aX a c˘arei lege de probabilitate estef(x; ) :R!R+, cu parametru necunoscut.
Pentru determinarea estim˘arii valorii reale a parametrului, primul pas îl constituie efectuarea unei selec¸tii de volum n în cadrul popula¸tiei statistice. Aceasta vine înso¸tit˘a de gruparea datelor culese ¸si de determinarea unor caracteristici statistice ale datelor ob¸tinute (media, dispersia, dispersia modificat˘a, eventual func¸tia de reparti¸tie, toate empirice). Pasul urm˘ator revine Teoriei selec¸tiei. Plecând de la variabilele aleatoare de se- lec¸tieX1; X2; :::; Xn;gener˘am anumite statistici de selec¸tie^ (X1; X2; :::; Xn);despre care demonstr˘am c˘a sunt estimatori punctuali pentru parametrul estimat. Metodele folosite apar¸tin Teoriei estima¸tiei ¸si sunt: metoda verosimilit˘a¸tii maxime, metoda momentelor (a lui Pearson), metoda celor mai mici p˘atrate, metoda minimului lui 2:Cu toate acestea, o estima¸tie punctual˘a nu precizeaz˘a cât de aproape se g˘ase¸ste estima¸tia^ (x1; x2; :::; xn) fa¸t˘a de valoarea real˘a a parametrului estimat .
Defini¸tia 1 Se nume¸ste interval de încredere, cu nivel de încredere , pentru parametrul un interval( ; );unde = '1(X1; X2; :::; Xn)¸si ='2(X1; X2; :::; Xn)care verific˘a
P < < = '1: (1)
Cantitatea = 1 ;suficient de mic˘a (de regul˘a se consider˘a valori precum 0:01;0:02; 0:05), se nume¸ste prag de semnifica¸tie.
Pentru o observa¸tie de volumn,x= (x1; x2; :::; xn);intervalul (determinist) ('1(x1; x2; :::; xn); '2(x1; x2; :::; xn))
se nume¸ste valoare a intervalului de încredere pentru parametrul :Prin abuz de nota¸tie ¸si limbaj, se folose¸ste denumirea de interval de încredere atât pentru intervalul aleator propriu-zis, cât ¸si pentru valoarea acestuia. Identificarea precis˘a a no¸tiunii reiese din contextul în care ea este utilizat˘a.
Formula (1) trebuie privit˘a în sensul c˘a intervalul de încredere ( ; ), care are capetele aleatoare, acoper˘a valoarea parametrului :Pentru identificarea acestui interval, dup˘a ce am construit statistica utilizat˘a pentru fiecare situa¸tie în parte, se impune condi¸tia general˘a:
=P(vs<^ (X1; X2; :::; Xn)< vd) =F^(X
1;X2;:::;Xn)(vd) F^(X
1;X2;:::;Xn)(vs) = Z vd
vs
f^(X
1;X2;:::;Xn)(u)du; (2) undeF^(X1;X2;:::;Xn);respectivf^(X1;X2;:::;Xn) reprezint˘a func¸tia de reparti¸tie, rspectiv densitatea de reparti¸tie a statisticii ^ (X1; X2; :::; Xn) folosit˘a. Dac˘a parametrul este necunoscut, se determin˘a, pentru început, un estimator punctual^prin una dintre cele patru metode posibile. Dup˘a aceasta, intervalul de încredere c˘autat are forma:
^ ^
g( )s^;^ + ^g( )s^ ;
undes^este estimarea abaterii medii p˘atratice (empiric˘a) a estimatorului^;iar^
g( )este cuantila de ording( ) pentru statistica^ (X1; X2; :::; Xn)folosit˘a. Func¸tiagse determin˘a, de la caz la caz, din prelucrarea rela¸tiei (2)
2.1 Intervale de încredere pentru media teoretic˘a
2.1.1 Intervale de încredere pentru media teoretic˘a, când dispersia teoretic˘a este cunoscut˘a
FieX o caracteristic˘a asociat˘a unei popula¸tii ¸si consider˘am c˘aX N ; 2 . Prin urmare, mediaE(X) = ¸si dispersiaD2(X) = 2. Presupunem, pentru început, c˘adispersia 2este cunoscut˘a.
Conform Propozi¸tiei1.1,X N ; 2=n , iar variabila aleatoare standardizat˘a va fi atunci repartizat˘a nor- mal standard, adic˘a
Z =X E X
q D2 X
=X pn
= pn
X N(0;1): (3)
Pentru a determina intervalul de încredere pentru media teoretic˘a impunem P(z1< Z < z2) = (z2) (z1) = ; ceea ce este echivalent cu P z1<
pn
(X )< z2 = 1 : (4) unde :R![0;1]este func¸tia lui Laplace ¸si reprezint˘a func¸tia de reparti¸tie a unei variabile aleatoare repartizat˘a normal standard. În ceea ce prive¸ste valorile luiz1 ¸siz2, intervalul(z1; z2)ar trebui s˘a aib˘a lungime minimal˘a, pentru un nivel de încredere fixat, ceea ce este echivalent cu rezolvarea urm˘atoarei probleme de optim, cu restric-
¸tii egalit˘a¸ti:
8>
><
>>
:
minz1;z2 p
n(z2 z1) Z z2
z1
fZ(z)dz= 1 :
Pentru a putea aplica metoda multiplicatorilor lui Lagrange, consider˘am func¸tiaL:R3!R; L(z1; z2; ) = pn(z2 z1) +
Z z2
z1
fZ(z)dz 1 + : Punctele critice sunt ob¸tinute în urma rezolv˘arii sistemului:
8>
>>
>>
<
>>
>>
>:
@L
@z1
= 0
@L
@z2 = 0
@L
@ = 0 ,
8>
>>
>>
><
>>
>>
>>
:
pn fZ(z1) = 0 pn+ fZ(z2) = 0 Z z2
z1
fZ(z)dz= 1 :
Cum func¸tia fZ este simetric˘a, solu¸tiile suntz1 = z2 ¸siz1 = z2:Este evident c˘a cea de a doua este solu¸tia acceptat˘a. Condi¸tia (4) devine
P X
=p
n < z = , P(jZj< z) = ; (5)
cu nivelul de încredere cunoscut. Deoarece ( z) = 1 (z)vom ob¸tine 2 (z) 1 = , (z) = 1 +
2 =1 + 1
2 = 1
2 ;
iar valoarea critic˘azse va ob¸tine din tabelele de valori ale distribu¸tieiN(0;1):Folosind nota¸tii intuitive, avem c˘a valoareazde mai sus este cuantila de ordin1 =2¸si folosim scriereaz=z1 =2:Prin urmare,
jZj< z1 =2 , X
=pn < z1 =2 , X < pnz1 =2 , pnz1 =2< X < pnz1 =2: Propozi¸tia 2.1 În cazul în care popula¸tia are caracteristicaX N ; 2 iar 2este cunoscut, intervalul de încredere pentru medie este reprezentat prin condi¸tia
X p
nz1 =2< < X+p
nz1 =2; (6)
undez1 =2este valoarea dat˘a de
z1 =2 = 1 2:
Din graficul reparti¸tiei normale standard se poate g˘asi interpretarea luiz1 =2:Astfel P jZj< z1 =2 = ,
Z z1 =2
z1 =2
p1
2 exp (x )2 2 2
! dx= :
Observa¸tia 2.1 Fieavaloarea exact˘a a unei m˘arimi. În acest caz = E(a) = a ¸siavaloarea aproximativ˘a a acestei m˘arimi (ob¸tinut˘a cu ajutorul unui aparat). Faptul c˘a este cunoscut reprezint˘a precizia m˘asur˘atorilor (siguran¸ta apara- tului). Intervalul de încredere pentruaeste
a p
nz1 =2< a < a+p
nz1 =2; deoarece a a
=p
n N(0;1):
O problem˘a comun˘a care intervine în practic˘a este aceea de a determinanum ˘arul minim de observa¸tii necesare pentru a ob¸tine o anumit ˘a precizie a rezultatelor. În acest sens utiliz˘am tot rela¸tia (5). Presupunem c˘a sunt date , siguran¸ta estima¸tiei, ¸si (eroarea absolut˘a). Atunci
ja aj< : Deci, din
ja aj< p
nz1 =2 ob¸tinem c˘a:
pnz1 =2 ) p
n z1 =2 ) n z1 =2 2;
adic˘a nmin = h
z1 =2 2i
+ 1. Eroarea absolut˘a reprezint˘a ¸si jumatate din lungimea intervalului de încredere (a z1 =2=p
n; a+ z1 =2=p n).
Propozi¸tia 2.2 În cazul în care volumul selec¸tiein > 30;iar popula¸tia are caracteristica X care urmeaz ˘a o distribu¸tie oarecare, nu neap ˘arat de tip normal, iar 2este cunoscut, intervalul de încredere pentru medie este dat de rela¸tia
X pnz1 =2< < X+pnz1 =2; undez1 =2este valoarea dat˘a de
z1 =2 = 1 2:
Aceast˘a afirma¸tie are loc deoarece variabila aleatoare standardizat˘a(X E(X))=D2(X)este repartizat˘a, con- form Teoremei Limit˘a Central˘a, asimptotic normal standardN(0;1).
Lema 2.1 Dat˘a o selec¸tie de volumn¸si variabilele de selec¸tieX1; X2; :::; Xnata¸sate caracteristiciiX;pentru care exist˘a ¸si sunt finite =E(X)¸si06= 2=D2(X);atunci
X
=p n
rep!Y N(0;1); pentrun!+1: Demonstra¸tie. DefinimYi=Xi=n;pentrui= 1;2; :::; n:Avem:
X = Xn i=1
Yi ¸si i=E(Yi) =E Xi
n =
n; i= 1; :::; n:
Prin urmare, pentrui= 1;2; :::; n;
E (Yi i)2 = i2=E Xi n
2!
=
2
n2 ¸si E (Yi i)3 = i3=E jXi j n3
3!
=
3
n3: Fiind verificat˘a condi¸tia lui Leapunov:
n!lim+1
Xn
i=1 3i
1=3
Xn
i=1 2 i
1=2 = lim
n!+1
3=n2 1=3
( 2=n)1=2 = lim
n!+1
1 n1=6 = 0;
ob¸tinem conform TLC,
n!lim+1P X
=p
n x = 1
p2 Z x
1
e z2=2dz; pentru oricex2R; rezultatul fiind astfel demonstrat.
Dac˘a pentru media teoretic˘anu se precizeaz˘a o limit˘a superioar˘a, atunci intervalul aleator din (4) este de tipul( 1; z2):În consecin¸t˘a,
P( 1< Z < z2) = (z2) = = 1 :
Valoarea critic˘a pentru cap˘atul din dreapta al intervalului este cuantila de ordin 1 a reparti¸tiei normale standard ¸si o vom nota cuz1 :Intervalul de încredere, cu pragul de semnifica¸tie , va fi caracterizat prin:
X pnz1 < <+1:
Similar, dac˘a nunu se precizeaz˘a o limit˘a inferioar˘apentru media teoretic˘a , atunci intervalul aleator din (4) este de tipul(z1;+1);iar valoarea critic˘az1 va fi oferit˘a de rela¸tia
P(z1< Z <+1) = 1 (z1) = 1 : Intervalul de încredere, cu pragul de semnifica¸tie , va fi:
1< < X+p nz :
2.1.2 Intervale de încredere pentru media teoretic˘a, când dispersia teoretic˘a este necunoscut˘a
În cazul în care volumul selec¸tiein >30,Xare o reparti¸tie oarecare ¸si este necunoscut, consider˘am o aproxi- mare a dispersiei teoretice 2'(S )2;prin dispersia de selec¸tie modificat˘a, dat˘a de:
(S )2= n
n 1S2 , S = r n
n 1S:
Propozi¸tia 2.3 Rela¸tia (6) ofer˘aintervalul de încredere pentru medie în cazul în care volumul selec¸tiein > 30;
popula¸tia are caracteristicaX care urmeaz ˘a o distribu¸tie oarecare, nu neap ˘arat de tip normal, iar 2este ne- cunoscut:
X S
pnz1 =2< < X+ S
pnz1 =2:
În cazul în care volumul selec¸tiein 30,X N ; 2 ¸si 2 este necunoscut prezent˘am leg˘atura dintre distribu¸tia normal˘a ¸si distribu¸tia 2precum ¸si leg˘atura dintre distribu¸tia normal˘a, distribu¸tia 2 ¸si distribu¸tia Student,t.
Lema 2.2 Pentru oricea >0;
X 2(n; ) dac˘a ¸si numai dac˘a aX 2 n;p
a ; (7)
unden2N ¸si >0:
Demonstra¸tie.Avem, pentru oricex 0,FaX(x) = 0¸si pentru oricex >0;
FaX(x) =P(aX x) =P(X x=a) =FX(x=a): Deci
faX(x) = (FaX(x))0 = (FX(x=a))0 =fX
x a
1
a = 1
2n2 (p
a )n n2 xn2 1exp x 2 (pa )2
!
; adic˘aaX 2(n;pa ).
Lema 2.3 Dac˘aX; Y sunt dou˘a variabile aleatoare independente, distribuite normal, de tipulN 0; 2 ;unde > 0;
atunci
X2 2(1; ) ¸si X2+Y2 2(2; ): Demonstra¸tie.Avem, pentru oricey 0,FX2(y) = 0¸si pentru oricey >0;
FX2(y) =P X2 y =P( py X py) =FX(py) FX( py):
Deci
fX2(y) = (FX2(y))0= (FX(py) FX( py))0 =fX(py) 1
2py +fX( py) 1 2py
=fX(py) 1
py = 1 p2 2exp
py 2 2 2
! 1
py = 1
p2 y12 1exp y 2 2 ;
adic˘a X2 corespunde unei variabile aleatoare distribuite 2(1; ). Dac˘aX; Y N 0; 2 ;atunci X2; Y2
2(1; )¸si, prin urmare, X2+Y2 2(1 + 1; ):
Rezultatul se poate generaliza la cazul anvariabile aleatoare independente.
Lema 2.4 Dac˘aXi; i= 1; n ;sunt variabile aleatoare de selec¸tie corespunz˘atoare unei selec¸tii de volumnasupra caracte- risticiiX N 0; 2 ;unde >0;atunci
Xn i=1
Xi2 2(n; ):
Demonstra¸tie.Conform rezultatului anterior,Yk = 12Xk2 2(1);pentru oricek= 1; n;
fYk(x) = 1
p2 xe x=21(0;+1)(x)
¸si atunci func¸tia sa caracteristic˘a este'Yk:R!C; 'Yk(t) =E(eitYk) =
Z +1 0
eitx 1
p2 xe x=2dx= (1 2it) 1=2:
Independen¸ta variabilelor aleatoareYk; k= 1; n;conduce la urm˘atoarea func¸tie caracteristic˘a pentruPn k=1Yk: 'Pn
k=1Yk(t) = Yn k=1
(1 2it) 1=2= (1 2it) n=2; t2R; adic˘aPn
k=1Yk 2(n) = 2(n;1):De aici rezult˘a c˘a Xn
k=1
Yk = Xn k=1
1
2Xk2= 1
2
Xn k=1
Xk2 2(n;1); adic˘a Xn k=1
Xk2 2(n; );
demonstra¸tia fiind, astfel, încheiat˘a.
Lema 2.5 Consider˘amXi; i= 1; n ;variabile aleatoare de selec¸tie corespunz˘atoare unei selec¸tii de volumnasupra carac- teristiciiX N ; 2 ;unde >0:
(a) Dac˘a media caracteristicii este cunoscut˘a, atunci:
H2= 1
2
Xn i=1
(Xi )2 2(n;1) = 2(n):
(b) Dac˘a media caracteristicii este necunoscut˘a, consider˘am media de selec¸tieX= (Pn
i=1Xi)=n¸si vom avea:
Xn i=1
Xi X 2 2(n 1; ) sau, echivalent 2= 1
2
Xn i=1
Xi X 2 2(n 1;1) = 2(n 1):
Demonstra¸tie.Avem c˘a sumaPn
i=1Xi N n ; n 2 ¸si apoiX N ; 2=n :Prin urmare, deducem c˘a (Xi ) N 0; 2 ¸si X N 0; 2=n :
În consecin¸t˘a,(Xi )2 2(1; )ceea ce conduce la Xn i=1
(Xi )2 2(n; ):
Ob¸tinem c˘a
H2= n
2
1 n
Xn i=1
(Xi )2= 1
2
Xn i=1
(Xi )2 2(n;1) = 2(n)
De asemenea,
X 2 2 1; =p
n ¸si n X 2 2(1; ): Pe de alt˘a parte, avem c˘a
Xn i=1
Xi X 2= Xn i=1
(Xi ) X 2=
Xn i=1
h
(Xi )2 2 (Xi ) X + X 2i
= Xn i=1
(Xi )2 2 X
Xn i=1
(Xi ) + Xn i=1
X 2=
Xn i=1
(Xi )2 2n X 2+n X 2:
Deci Xn
i=1
Xi X 2= Xn i=1
(Xi )2 n X 2 2(n; ) 2(1; ) = 2(n 1; ); ceea ce conduce la
2= 1
2
Xn i=1
Xi X 2 2(n 1;1) = 2(n 1): Determin˘am reparti¸tia dispersiei de selec¸tie modificat˘a astfel:
2= n
2
1 n
Xn i=1
Xi X 2= n
2S2= n
2
n 1
n (S )2= n 1
2 (S )2: Rezult˘a c˘a(n 1) (S )2 2(n 1; )¸si, în mod similar,nS2 2(n 1; ):
În final, are loc urm˘atoarea leg˘atura dintre distribu¸tia normal˘a, distribu¸tia 2 ¸si distribu¸tia Student.
Lema 2.6 Dac˘aX N 0; 2 ¸siY 2(n; );unden 2 N ¸si >0;sunt dou˘a variabile aleatoare independente, atunci distribu¸tia
T = X rY
n
t(n):
Demonstra¸tie.Vectorul aleator(X; Y)are densitatea de reparti¸tie, pentrux2R; y 0;
f(X;Y)(x; y) = 1
p2 2exp x2 2 2
1
2n=2 n (n=2)yn2 1exp y
2 2 = 1
p n+1
2n+12 (n=2)yn2 1exp x2+y 2 2 : S˘a consider˘am transformarea
8<
:
u= x py
n
; v=y;
cu inversa 8<
:
x= up p v
n ; y=v;
¸si JacobianulJ(u; v) =p v=p
n:
Ob¸tinem astfel densitatea de reparti¸tie a vectorului aleatorf(U;V):
f(U;V)(u; v) =f(X;Y) upv pn; v
pv pn =
vn21 exp 2v2 u2 n + 1 pn n+12n+12 (n=2) : Densitatea marginal˘a este dat˘a de (avemv=y 0)
fU(u) = 1
pn n+12n+12 (n=2) Z +1
0
vn21exp v 2 2
u2
n + 1 dv:
Facem substitu¸tia 2v2 u2
n + 1 =v0decidv= 2 2dv0= un2 + 1 ¸si
fU(u) = 1
pn n+12n+12 (n=2) Z +1
0
2 2
u2 n + 1
n 1 2
(v0)
n 1
2 e v0 2 2
u2 n + 1dv0
= 1
pn (n=2) u2
n + 1
n+1 2 Z +1
0
vn21e vdv= 1 pn (n=2)
u2 n + 1
n+1
2 n+ 1
2 : DeciUurmeaz˘a distribu¸tia Student cungrade de libertate.
Lema 2.7 Consider˘amXi; i= 1; n ;variabile aleatoare de selec¸tie corespunz˘atoare unei selec¸tii de volumnasupra carac- teristiciiX N 0; 2 ;unde >0;¸si fieX= (Pn
i=1Xi)=n;media de selec¸tie corespunz˘atoare. Atunci s Pn X
i=1 Xi X 2 n(n 1)
t(n 1):
Demonstra¸tie.Utilizând rezultatele anterioare ob¸tinem c˘a
X N 0;
2
n ¸si 1
n Xn i=1
Xi X 2 2 n 1;p
n ; (8)
de unde deducem c˘a
v X uu t1
n Xn
i=1 Xi X 2
n 1
t(n 1);
iar demonstra¸tia este încheiat˘a.
Aten¸tie. Trebuie subliniat faptul c˘a, dup˘a formula (8), am aplicat rezultatul Lemei2.6, care stabile¸ste o leg˘atura între distribu¸tia normal˘a, distribu¸tia 2 ¸si distribu¸tia Student. Dar, înainte de a face aceasta, trebuie remarcat c˘a acest rezultat solicit˘a ca ¸si ipotez˘a c˘a cele dou˘a variabile implicate sunt independente. În cazul nostru, la num˘ar˘ator apareX;iar la numitor(S )2;ambele fiind definite cu ajutorul acelora¸si variabile aleatoare de selec¸tie X1; X2; :::; Xn:Prin urmare,prima opinie ar fi c˘a nu este verificat˘aaceast˘a ipotez˘a de independen¸t˘a. O analiz˘a mai atent˘a arat˘a c˘a, în ipoteze de normalitate pentru caracteristicaX N( ; 2);media de selec¸tieX¸si dispersia de selec¸tie S2 (deci ¸si dispersia de selec¸tie modificat˘a (S )2) sunt statistici independente stochastic. Aceasta informa¸tie este organizat˘a în cadrul urm˘atorului rezultat.
Lema 2.8 FieX1; X2; :::; Xn variabilele aleatoare de selec¸tie corespunz˘atoare unei selec¸tii de volumnasupra unei carac- teristiciX N ; 2 a unei popula¸tii statistice. Au loc afirma¸tiile urm˘atoare.
(a) Media de selec¸tieXeste independent˘a deXi X;pentru oricei= 1;2; :::; n:
(b) Media de selec¸tieXeste independent˘a de dispersia de selec¸tieS2¸si, prin urmare, ¸si de dispersia de selec¸tie modifi- cat˘a(S )2:
Demonstra¸tie. (a) Reparti¸tia vectorului aleator de selec¸tie V = (X1; X2; :::; Xn)este, deoarece variabilele de selec¸tii sunt independete estefV :Rn !R;
fV (x1; x2; :::; xn) = 1
(2 )n=2 nexp 1 2
Xn i=1
xi 2! : Consider˘am acum urm˘atoarea transformare a variabilelor aleatoareXi; i= 1;2; :::; n:
8>
>>
>>
><
>>
>>
>>
:
Y1 = X Y2 = X2 X Y3 = X3 X
... ... Yn = Xn X
; cu inversa transform˘arii 8>
>>
>>
><
>>
>>
>>
:
X = Y1 X2 = Y2+Y1
X3 = Y3+Y1 ... ... Xn = Yn+Y1
Calculul Jacobianului transform˘arii conduce laJ =n;deci este independent deX ¸si deXi; i= 1;2; :::; n:Avem deci:
fY1;Y2;:::;Yn(y1; y2; :::; yn) =fV(x1; x2; :::; xn) jJj=nfV(x1; y1+y2; :::; y1+yn): (9) Cumx1 x= Pn
i=2(xi x);ob¸tinem 1
2
Xn i=1
(xi )2= 1
2
Xn i=1
(xi x)2+n(x )2
!
= 1
2 (x1 x)2+ Xn i=2
(xi x)2+n(x )2
!
= 1
2
0
@ Xn i=2
(xi x)
!2
+ Xn i=2
(xi x)2+n(x )2 1 A= 1
2
0
@ Xn i=2
yi
!2
+ Xn i=2
y2i +n(y1 )2 1 A;
iar formula (9), care d˘a densitatea vectorului aleator(Y1; Y2; :::; Yn);devine,
fY1;Y2;:::;Yn(y1; y2; :::; yn) = n
(2 )n=2 n exp 0
@ 1 2 2
0
@ Xn i=2
yi
!2
+ Xn i=2
yi2+n(y1 )2 1 A
1 A
= n
(2 )n=2 nexp 0
@ 1 2 2
0
@ Xn
i=2
yi
!2
+ Xn i=2
yi2 1 A
1 A
| {z }
=h(y2;y3;:::;yn)
exp n
2 2(y1 )2
| {z }
=g(y1)
= n
(2 )n=2 nh(y2;y3; :::; yn)g(y1):
Caracterizarea prin intermediul densit˘a¸tii de reparti¸tie a independen¸tei variabilelor aleatoare conduce la faptul c˘a variabilele aleatoareY1 =X ¸siYi =Xi X; i= 2; :::; nsunt independente. Pentru finalizarea demonstra¸tiei punctului(a), rela¸tia
X1 X= Xn i=2
Xi X
arat˘a c˘aX1 X este o func¸tie continu˘a deXi X; i= 2; :::; n;deciX1 Xeste ¸si ea independent˘a deY1=X:
(b) Defini¸tiile luiS2¸si(S )2;ca func¸tii continue deXi X; i= 1; :::; n;
S2= 1 n
Xn i=1
Xi X 2 ¸si (S )2= 1
n 1
Xn i=1
Xi X 2= n n 1S2
conduc, folosind rezultatul ob¸tinut la punctul(a)la concluzia dorit˘a, iar demonstra¸tia este încheiat˘a.
Având în vedere cele discutate anterior, vom ob¸tinem astfel c˘a ¸si variabila T =
pn
S X =
pn X r nS2
n 1
t(n 1): (10)
Acum avem, conform cu (5) ¸si (10), pentrut 0;
P(jTj< t) = , P pn
S X < t = , P(jTj t) = , 2P(T t) = ; ceea ce implic˘a
P(T t) = =2 , 1 P(T < t) = =2 , P(T < t) = 1 =2:
Valoarea critic˘a a luitva fi cuantila de ordin 1 =2 corespunz˘atoare distribu¸tiei Student cun 1 grade de libertate ¸si va fi notat˘a, într-un mod sugestiv, cut1 =2;n 1:Urm˘atorul rezultat ofer˘a acum forma intervalului de încredere pentru medie.
Propozi¸tia 2.4 În cazul în care volumul selec¸tiein 30;popula¸tia are caracteristicaX N ; 2 iar 2este necunoscut, intervalul de încredere pentru medie este dat de
X S
pnt1 =2;n 1< < X+ S
pnt1 =2;n 1; (11)
unde valoareat1 =2;n 1= t =2;n 1este citit˘a din tabelul distribu¸tiei Student de parametrun 1:
Dac˘a pentru media teoretic˘a nu se precizeaz˘a o limit˘a inferioar˘a, atunci intervalul de încredere, pentru un prag de semnifica¸tie este
1< < X+ S
pnt ;n 1; iar dac˘a nu se precizeaz˘a o limit˘a superioar˘a, atunci are reprezentarea
X S
pnt ;n 1< <+1:
2.2 Intervale de predic¸tie pentru observa¸tii viitoare
O problem˘a care poate fi formulat˘a const˘a în prezicerea unor viitoare valori observate ale unei caracteristici.
Aceasta este o problem˘a diferit˘a de estimarea mediei unei variabile, deci discutarea despre un interval de în- credere pentru parametru nu este oportun˘a. Prezent˘am modul de a ob¸tine un interval de pedic¸tie,cu un nivel de încredere de1 ;pentru o valoare viitoare a unei caracteristiciX N ; 2 . Pentru o selec¸tie repetat˘a de volumnîn cadrul popula¸tiei, fieX1; X2; :::; Xn variabilele de selec¸tie corespunz˘atoare. Dorim s˘a prezicem valoareaXn+1a unei observa¸tii viitoare singulare. Un estimator pentru valoare ar trebui s˘a fie media de selec¸tie X;iareroarea de predic¸tie esteXn+1 X:Valoarea sa medie ¸si dispersia sunt:
E(Xn+1 X) = = 0; ¸si D2(Xn+1 X) = 2+
2
n = 2 1 + 1 n ;
deoarece observa¸tia viitoare, dat˘a de variabila de selec¸tieXn+1este independent˘a de media de selec¸tie a primelor nvariabile de selec¸tie (independente)X1; X2; :::; Xn:DeoareceXn+1 N ; 2 ; X N ; 2=n sunt inde- pendente, atunci eroarea de selec¸tie are reparti¸tia
Xn+1 X N 0; 2 1 + 1
n ; iar normalizata sa Xn+1 X r
1 + 1 n
N(0;1): (12)
Conform Lemei2.5,
(n 1) (S )2
2 = 1
2
Xn i=1
Xi X 2 2(n 1): (13)
Datorit˘a formei reparti¸tiilor date de (12) ¸si (13), Lema2.6ofer˘a distribu¸tia reparti¸tiei urm˘atoare:
T =
Xn+1 X r
1 + 1 s n
(n 1) (S )2
2(n 1)
= Xn+1 X S
r 1 + 1
n
t(n 1):
În aceea¸si manier˘a în care am utilizat statistica T în Sec¸tiunea 2.1.2pentru determinarea unui interval de în- credere pentru media teoretic˘a atunci când dispersia teoretic˘a era necunoscut˘a, ob¸tinem uninterval de predic¸tie pentru valoarea viitoare observat˘a, la un prag de semnifica¸tie .
Propozi¸tia 2.5
x t =2;n 1 s r
1 + 1
n< Xn+1< x+ t =2;n 1 s r
1 + 1
n; (14)
unde valoareat =2;n 1este citit˘a din tabelul distribu¸tiei Student cun 1grade de libertate.
Observa¸tia 2.2 Intervalul de predic¸tie pentruXn+1 va fi întotdeauna mai lung decât intervalul de încredere pentru me- dia teoretic˘a deoarece exist˘a mai mult˘a variabilitate asociat˘a erorii de predic¸tie Xn+1 X;decât erorii de estima¸tie X :Pentru volumul de selec¸tiensuficient de mare, lungimea intervalului de încredere se mic¸soreaz˘a pân˘a spre zero, concentrându-se în valoarea punctual˘a ;pe când lungimea intervalului de predic¸tie se apropie de2z =2 ;undez =2este cuantila de ordin =2asociat˘a reparti¸tiei normale standard. Cu alte cuvine, pentrunsuficient de mare, incertitudinea în estimarea mediei teoretice dispare, pe când incertitudinea prezicerii valorii viitoare pentru variabila de selec¸tieXn+1va exista, chiar dac˘a nu este nevoie s˘a estim˘am nici un parametru al reparti¸tiei statisticii studiate.
2.3 Intervale de încredere pentru dispersia teoretic˘a
2.3.1 Intervale de încredere pentru dispersia teoretic˘a când media teoretic˘a este cunoscut˘a
FieX N ; 2 o caracteristic˘a asociat˘a unei popula¸tii ¸si efectu˘am o selec¸tie repetat˘a de volumn; X1; :::; Xn fiind variabilele de selec¸tie corespunz˘atoare. Scopul este acela de a determina un interval de încredere, la un prag de semnifica¸tie ;pentru 2;în ipoteza c˘a media teoretic˘aE(X) = este cunoscut˘a.
În Lema2.5am ar˘atat c˘a statistica H2= 1
2
Xn i=1
(Xi )2 2(n;1) = 2(n)
Pentru determinarea intervalului de încredere, pornim de la condi¸tia
P 21< H2< 22 =P H2> 21 P H2 22 = ;
iar punctele critice se determin˘a ¸tinând cont c˘a la reparti¸tia 2tabelul cu "cuantilele" con¸tine, ca ¸si la reparti¸tia Student a¸sa numitele "tails", adic˘a ariile por¸tiunii de sub grafic ce se g˘asesc la dreapta argumentului func¸tiei de reparti¸tie. "Cuantilele" se identific˘a prin rezolvarea sistemului:
8>
>>
<
>>
>:
P H2> 21 = Z 1
2 1
fH2(x)dx= 1
2 = 1 1 2
P H2 22 = Z 1
2 2
fH2(x)dx= 2 = 1
2 ;
(15)
undefH2 reprezint˘a densitatea de reparti¸tie a unei statisticiiH2;repartizat˘a 2(n;1):Se observ˘a din sistemul (15) c˘aP 2> 21 >P 2 22 ;deci 21< 22:Vom nota, în mod sugestiv, aceste cuantile cu 21= 21 =2;n¸si
22= 2=2;n:
În ceea ce prive¸ste cazul în care dispersia este nem˘arginit˘a inferior, respectiv superior, cuantilele se ob¸tin prin impunerea, individual˘a, a urm˘atoarelor condi¸tii:
=P H2 21 = 1 P H2> 21 , P H2> 21 = 1 ; ¸si ob¸tinem 21= 21 ;n:
=P H2 22 ¸si ob¸tinem 22= 2;n:
Propozi¸tia 2.6 În cazul în care volumul selec¸tiein 30;popula¸tia are caracteristicaX N ; 2 iar este cunoscut ˘a, intervalul de încredere pentru dispersia teoretic ˘a 2este dat de
Xn i=1
(Xi )2
2
=2;n
< 2<
Xn i=1
(Xi )2
2 1 =2;n
; unde valorile critice 21= 21 =2;n¸si 22= 2=2;nsunt cuantilele determinate anterior.
Dac˘a dispersia este nem˘arginit˘a inferior, respectiv superior, atunci intervalul de încredere, pentru un prag de semnifi- ca¸tie este:
0< 2<
Xn i=1
(Xi )2
2 1 ;n
; respectiv
Xn i=1
(Xi )2
2;n
< 2<+1:
2.3.2 Intervale de încredere pentru dispersia teoretic˘a când media teoretic˘a este necunoscut˘a
Presupunem c˘a ne situ˘am în contextul paragrafului anterior, cu singura diferen¸t˘a c˘a media teoretic˘aE(X) = a caracteristiciiXeste necunoscut˘a. Consider˘am dispersia de selec¸tie modificat˘a(S )2, pentru care am ar˘atat, în Lema2.5,
H= n 1
2 (S )2 2(n 1;1) = 2(n 1); adic˘a (n 1) (S )2 2(n 1; ):
(În unele c˘ar¸ti de specialitate se utilizeaz˘a, alternativ, statisticaH=nS2= 2despre care am ar˘atat, tot în Lema 2.5c˘a este repartizat˘a 2(n 1):Intervalul de încredere este similar cu cel ob¸tinut prin folosirea dispersiei de selec¸tie modificate în locul celei nemodificate.)
Repet˘am ra¸tionamentul din cazul în care media teoretic˘a este cunoscut˘a ¸si identific˘am cuantilele 21= 21 =2;n 1
¸si 22= 2=2;n 1(pentru intervale m˘arginite), 21= 21 ;n 1¸si 22= 2;n 1(pentru intervale nem˘arginite), care conduc la urm˘atorul rezultat privind intervalul de încredere dorit.
Propozi¸tia 2.7 În cazul în care volumul selec¸tiein 30;popula¸tia are caracteristicaX N ; 2 iar este necunoscut ˘a, intervalul de încredere pentru dispersia teoretic ˘a 2este dat de
(n 1) (S )2
2
=2;n 1
< 2<(n 1) (S )2
2
1 =2;n 1
;
unde valorile critice 21= 21 =2;n 1¸si 21= 2=2;n 1sunt cuantilele determinate anterior.
Dac˘a dispersia este nem˘arginit˘a inferior, respectiv superior, atunci intervalul de încredere, pentru un prag de semnifi- ca¸tie este:
0< 2< (n 1) (S )2
21 ;n 1
; respectiv (n 1) (S )2
2;n 1
< 2<+1: Observa¸tia 2.3 Dac˘a volumul de selec¸tie esten >30;atunci putem folosi faptul c˘a
2(m;1)! N(m;2m); pentrum! 1:
Într-adev˘ar, dac˘a o variabil˘a aleatoareX 2(n;1), atunci, conform Lemei 2.1, pentru nsuficient de mare, ob¸tinem, aplicând Teorema Limit˘a Central˘a,
Zn= X E(X)
pD2(X) =X n
p2n N(0;1); sau, echivalent, X = (p
2nZn+n) N(n;2n):
În cazul nostru, pentrunsuficient de mare,
2(n 1;1)' N(n 1;2 (n 1));
iar aceasta sugereaz˘a c˘a putem folosi func¸tia de reparti¸tie a lui Laplace ¸si deducem, având în vedere c˘a am demonstrat reparti¸tia statisticii(n 1) (S )2= 2 2(n 1;1);
=P 21<(n 1) (S )2
2 < 22
!
=
22 (n 1) p2 (n 1)
! 2
1 (n 1)
p2 (n 1)
!
Reamintim c˘a graficul reparti¸tiei normaleN(n 1;2 (n 1))este simetric fa¸t˘a de media reparti¸tiei(n 1)deci
21+ 22
2 =n 1 , 21= 2 (n 1) 22 (16)
¸si atunci ob¸tinem:
=
2
2 (n 1)
p2 (n 1)
! 2
2 (n 1)
p2 (n 1)
!
= 2
2
2 (n 1)
p2 (n 1)
! 1,
2
2 (n 1)
p2 (n 1)
!
= 1 2
Folosind tabelul func¸tiei de reparti¸tie ;asociat˘a unei variabile aleatoareZ N(0;1);vom ob¸tine valoarea critic˘a 22= z1 =2;iar apoi valoarea 21se ob¸tine folosind formula (16).
3 Intervale de încredere pentru dou˘a selec¸tii
3.1 Intervale de încredere pentru diferen¸ta a dou˘a medii teoretice
Consider˘am dou˘a popula¸tii statistic˘a pentru care investig˘am câte o caracteristic˘a X1 N 1; 21 , respectiv X2 N 2; 22 ; mediile teoretice fiind necunoscute. Efectu˘am o selec¸tie repetat˘a de volum n1 din prima popula¸tie, X11; X12; :::; X1n1 fiind variabilele de selec¸tie corespunz˘atoare ¸si o selec¸tie de volumn2 din a doua popula¸tie, cu variabilele aleatoare de selec¸tieX21; X22; ::; X2n2:Dispersiile de selec¸tie modificate pentru fiecare popula¸tie sunt:
(S1)2= 1 n1 1
n1
X
k=1
X1k X1 2 ¸si (S2)2= 1 n2 1
n2
X
k=1
X2k X2 2:
Ne intereseaz˘a s˘a determin˘am un interval de încredere pentru diferen¸ta mediilor celor dou˘a caracteristici.
Cazul A.Dac˘a dispersiile 21¸si 22suntcunoscutea priori, atunci statistica folosit˘a este Z= X1 X2 ( 1 2)
s 2 1
n1
+
22
n2
N(0;1):
Pentru a demonstra c˘a Z urmeaz˘a aceast˘a distribu¸tie, pentru început ar˘at˘am c˘a diferen¸ta a dou˘a variabile aleatoare repartizate normal este tot o variabil˘a aleatoare Gaussian˘a. Putem realiza acest lucru fie prin trans- form˘ari de vectori aleatori, fie cu ajutorul func¸tiei caracteristice. Vom alege cea de a doua variant˘a. În ceea ce prive¸ste distribu¸tiile mediilor de selec¸tie avem:
X1 N 1;
12
n1
¸si X2 N 2;
22
n2
;
iar func¸tiile lor caracteristice sunt 'X1; 'X2 : R!C; 'Xi(t) = E(eitXi) = exp i it t2 2i=(2ni) ; i = 1;2:
Independen¸ta celor dou˘a variabile aleatoare duce, pentru oricet2R;la:
'X1 X2(t) =E eit(X1 X2) =E eitX1 E e itX2 = exp it 1 12t2
2n1 exp it 2 22t2 2n2 ;
adic˘aX1 X2 N 1 2; 21=n1+ 22=n2 : Normaliz˘am aceast˘a variabil˘a ¸si ob¸tinem c˘aZ N(0;1):Ne încadr˘am astfel în cadrul de lucru prezentat în Sec¸tiunea2.1.1¸si ob¸tinem intervalul de încredere pentru diferen¸ta mediilor:
X1 X2 z1 =2 s 2
1
n1
+
22
n2
< < X1 X2+z1 =2 s 2
1
n1
+
22
n2
: Cazul B.Dac˘a dispersiile 21 ¸si 22sunt necunoscute, statistica utilizat˘a este
T = X1 X2 ( 1 2) s 2
1
n1
+
22
n2
t(m 1); unde m= s21=n1+s22=n2 2 1
n1 1(s21=n1)2+ 1
n2 1(s22=n2)2 2:
Folosind argumentele din Sec¸tiunea2.1.2, intervalul de încredere pentru 1 2;pentru un prag de semnifica¸tie este caracterizat de
X1 X2 t =2;m 1
s (S1)2
n1
+(S2)2 n2
< < X1 X2+t =2;m 1
s (S1)2
n1
+(S2)2 n2
:
3.2 Intervale de încredere pentru raportul a dou˘a dispersii teoretice
FieX1¸siX2dou˘a caracteristici independente asociate la dou˘a popula¸tii ¸si consider˘am c˘aX1 N 1; 21 ; X2 N 2; 22 :Presupunem c˘a mediileE(Xi) = i¸si dispersiileD2(Xi) = 2i sunt necunoscute,i= 1;2:
Conform Lemei2.5, avem c˘a X= n1S21
21
2(n1 1;1) = 2(n1 1) ¸si Y = n2S22
22
2(n2 1;1) = 2(n2 1): Dar
(Si)2= ni
ni 1Si2; i= 1;2; deci
X= (n1 1) (S1)2
21
¸si Y = (n2 1) (S2)2
22
: Consider˘am statistica de lucru
F =X=(n1 1) Y =(n2 1):