• Nenhum resultado encontrado

Statisztika Jegyzet

N/A
N/A
Protected

Academic year: 2021

Share "Statisztika Jegyzet"

Copied!
125
0
0

Texto

(1)

Bodó László

(2)
(3)

Bodó László

Bevezetés a mintavételes statisztikába

PTE TTK FEEFI

(4)

Lektorálta: dr. Novák Zoltán

HUMÁN SZERVEZŐ (MUNKAÜGYI) MENEDZSER

SOROZAT

Sorozatszerkesztő: dr. Koltai Dénes

Megjelent a Pécsi Tudományegyetem Természettudományi Kar

Felnőttképzési és Emberi Erőforrás Fejlesztési Intézet gondozásában

Felelős kiadó: az Intézet igazgatója

ISSN 1218–6880

Layout: Bodó László

G&G Kft.

Felelős vezető: dr. Gárván János ügyvezető igazgató

(5)

Tartalom 1. Előszó... 7 2. Matematikai alapfogalmak...10 2.1. Függvénytani alapfogalmak...12 2.1.1. Elemi függvények...12 2.2. Az adatok kerekítése...15 2.2.1. Szignifikáns számjegyek...15 2.3. Logaritmusok és használatuk...16 2.4. Sorozatösszeadások, szorzatok...17 2.5. Kombinatorikai alapok...18 2.5.1. Faktoriális...19 2.5.2. Permutációk...19 2.5.3. Kombinációk...20 2.5.3.1 Példák a valószínűségszámításra és kombinatorikára. 21 3. A nagy számok törvénye és a reprezentatív megfigyelés...23

3.1. Főbb eloszlástípusok...30

3.2. A binomiális és a normális eloszlás...30

3.2.1. Binomiális (Bernoulli-) eloszlás...30

3.2.2. Normális (Gauss-féle) eloszlás...32

3.2.3. A szórás tulajdonságai...32

3.2.4. A standard valószínűségi változó...34

3.2.4.1 Példák a standardizálásra...35

3.3. Kapcsolat az eloszlások között...37

3.3.1. Diszkrét egyenletes eloszlás...38

4. A mintavétel alapjai...39

4.1. A statisztikai egység, sokaság és minta...39

4.2. Statisztikai sokaságok típusai...39

4.3. A reprezentatív minta...40

4.3.1. A valószínűségi mintavételi tervek fajtái...42

4.3.2. Nem valószínűségi mintavételek...44

4.4. A véletlenszerű minta előnyei...44

4.5. Visszatevéses, visszatevés nélküli mintavétel...45

5. A minták jellemző összefüggései...46

5.1.1. Milyen számokkal lottózzunk?...50

5.2. Mintavételi eloszlások...53

5.2.1. Az átlagok mintavételi eloszlása...53

5.2.2. A mintabeli arányok eloszlása...54

5.3. Standard hiba...55 6. Statisztikai következtetéselmélet...58 6.1. Statisztikai becsléselmélet...59 6.1.1. Torzítatlan becslések...60 6.1.2. Hatásos becslés...61 6.2. A pontbecslés...61 6.3. Intervallumbecslés...61 6.3.1. Kétoldali konfidencia-intervallum...62 6.3.2. Konfidenciaintervallum átlagra...63 6.3.3. Konfidenciaintervallum arányra...64 6.4. A közvélemény-kutatások pontossága...64 6.4.1.1 Példák az intervallumbecslésre...66

(6)

7. Döntéselmélet — hipotézisvizsgálat...69

7.1. A hipotézis megfogalmazása...70

7.1.1. A null-hipotézis...71

7.1.2. Szignifikanciaszint...72

7.1.3. A kritikus tartomány...73

7.2. A hipotézisvizsgálat során elkövethető hibák...74

7.2.1. Az elsőfajú hiba...74

7.2.2. A másodfajú hiba...75

7.3. A próbafüggvény...78

7.4. A hipotézisvizsgálat során használatos próbafüggvények...80

7.4.1. Standard normális eloszlás...80

7.4.2. Student féle t-eloszlás...81

7.4.3. Khi-négyzet eloszlás...82

7.4.4. Fisher féle F-eloszlás...83

7.4.5. A szabadságfok...83 7.5. Egymintás próbák...84 7.5.1. Kismintás z-próba...85 7.5.1.1 Példák a z-próbára...85 7.5.2. Aszimptotikus(nagymintás) z-próba...89 7.5.3. Egymintás t-próba...90 7.5.3.1 Példák a t-próbára...91 7.6. Kétmintás próbák...94

7.6.1. Páros (önkontrollos) minták...94

7.6.1.1 Példák a páros t-próbára...95

7.7. Két független mintát igénylő próbák...101

7.7.1. Kétmintás z-próba...101

7.7.1.1 Példák a kétmintás z-próbára...102

7.7.2. Szórásnégyzetekre irányuló próba (F-próba)...104

7.7.2.1 Példa az F-próbára...105

7.7.3. Kétmintás t-próba...106

7.7.3.1 Kétmintás t-próba...106

7.8. Több sokaság várható értékének összehasonlítása...109

7.8.1. Variancia-analízis...109

7.8.2. Belső variancia...110

7.8.3. Külső variancia...110

7.8.3.1 Példa a varianciaanalízisre...111

7.9. Függetlenségvizsgálat...112

7.9.1. Szórásnégyzetre irányuló χ2−próba...114

7.9.1.1 Példák a khi-négyzet próbára...114

7.9.1.2 Szórásnégyzetre irányulóχ2- próba...118

8. A hipotézisvizsgálat összefoglalása...120

9. Felhasznált, egyúttal ajánlott irodalom...123

10. Melléklet —táblázatok...125

(7)

1. Előszó

A Bevezetés a mintavételes statisztikába című jegyzet a Pécsi Tudományegyetem Felnőttképzési és Emberi Erőforrás Fejlesztési Intézet humánszervező és személyügyi szervező hallgatói számára íródott. A FEEFI által kiadott jegyzetek sorában megtalálható Pintér József Bevezetés a statisztikába című jegyzete, mely a leíró, a deduktív statisztika alapjaival ismerteti meg az olvasót. E jegyzet a mintavételen alapuló legfontosabb statisztikai módszerekkel foglalkozik.

A mintavételes statisztika a sokaság és a belőle nyert minták közti kapcsolatokat vizsgálja. Sokszor ugyanis valamilyen ok folytán nincs alkalom a megfigyelést a populációra kiterjeszteni, ezért a sokaságból vett megfelelő mintából kell a sokaságra vonatkozó megállapításokat tenni. Amennyiben a minta jól reprezentálja a sokaságot, azaz a vizsgált szempontból hasonló arányban szerepelnek az egyedek a mintában, mint amilyen arány a sokaságban is jellemzi őket, akkor a minta elemzésével következtetések vonhatók le a sokaságra vonatkozóan.

Mintavételből származó statisztikákból például megbecsülhetjük a sokaság valamely paraméterét. Mintavételes eljárásokkal tudjuk eldönteni, hogy két minta között megfigyelhető különbség valódi, szignifikáns-e, vagy csak a véletlennek tulajdonítható: a hipotézis- és a szignifikanciavizsgálat egyaránt a sokaságból nyert megfelelő minta alapján történik.

A statisztika azon ágát, mely a matematika valószínűségelméletére alapul, s amely azt vizsgálja, hogy milyen feltételek mellett érvényesek a minta alapján a sokaságra vonatkozó következtetések,

(8)

induktív statisztikának vagy statisztikai

következtetéselméletnek nevezzük.

A jegyzet célja, hogy a humánszervező és személyügyi szervező szakos hallgatók – majdan szakemberek – segítséget kapjanak statisztikai jellegű problémák felismerésében, azok kezelésében és megoldásában, illetve ha komolyabb statisztikai feladat előtt állnak, akkor meg tudják fogalmazni a statisztikus szakember számára kérdéseiket, kívánalmaikat.

Az anyag elsajátítása egyszerű középiskolai matematikai ismereteket feltételez, a jegyzetben igyekeztem elkerülni a bonyolultabb matematikai jelöléseket és képleteket, s nem foglalkoztam a tételek

bizonyításával. A matematikai ismeretek

legszükségesebbjeit külön fejezetben foglaltam össze, illetve a példákban a használatukat is bemutattam.

A jegyzet a tanulás megkönnyítése érdekében megoldott példákat is tartalmaz, melyeket igyekeztem úgy összeállítani, hogy az alkalmazási lehetőségekre irányítsák a figyelmet.

A jegyzet elkészítésekor nagyban támaszkodtam a Pécsi Tudományegyetem Közgazdaságtudományi Kara által kiadott statisztika jegyzetekre – a statisztikában elmélyülni szándékozók feltétlenül vegyék kezükbe

Hoóz István, Hajdu Ottó, Pintér József, Rappai Gábor és Rédey Katalin jegyzeteit. Ajánlom még Hunyadi László–Mundruczó György–Vita László Statisztika című

könyvét és a rengeteg példát közlő Spiegel, Murray R. Statisztika: Elmélet és gyakorlat című munkáját. Az interneten is sok honlap foglalkozik a statisztikával; egy javasolt induló oldal: www.statisztika.lap.hu

A jegyzetben csak utalni tudtam számítógépes statisztikai módszerekre. A speciális statisztikai programcsomagok közül elterjedt az SPSS, s a

(9)

hétköznapokban jól használható a Microsoft EXCEL

programja, sőt még a WORD is rendelkezik bizonyos

statisztikában használatos lehetőségekkel, melyeket nemcsak a szakdolgozat elkészítésekor, hanem napi munkája során is jól hasznosíthat a falhasználó.

(10)

2. Matematikai alapfogalmak

A megszámlálás által közönséges egész számok vagy más néven pozitív egész számok: 1, 2, 3, 4, 5, keletkeznek. A matematika e legegyszerűbb számokból kiindulva újabb számnemek bevezetésével a számfogalom körét fokozatosan kibővíti, hogy a számokkal való műveletek, melyek a meglévő számnemek körében csak kivételesen oldhatók meg, mindig elvégezhetők legyenek. Például a kivonás a közönséges egész számok körében csak akkor végezhető el, ha nagyobb számból kisebbet vonunk ki.

Hogy bármely egész számból bármelyiket kivonhassuk, újabb számokat kellett bevezetni: a zérust és a negatív egész számokat. A zérus két egyenlő szám különbsége. A -k negatív szám pedig egy tetszőleges n kisebbítendőnek s a nálánál k-val nagyobb n+k kivonandónak különbsége. A pozitív és negatív egész számok meg a zérus együtt a racionális

egész számok összességét alkotják.

A racionális egész számok körében a kivonás már mindig elvégezhető, az osztás azonban csak kivételesen. Hogy bármely egész számot bármely (a zérustól különböző) egész számmal eloszthassunk, a

törtek bevezetésére volt szükség. Két egész szám

hányadosa, hacsak nem maga is racionális egész szám, pozitív vagy negatív tört, aszerint, hogy az adott számok egyenlő vagy ellenkező előjelűek. Vannak véges és végtelen törtek. Pl. a ¾ véges eredményt, pontosan 0,75-öt eredményez, s vannak végtelen szakaszos törtek, pl. az 1/3, mert nincs az osztásnak vége 0,33333…

A racionális egész számokat és a törteket közösen racionális számoknak mondjuk (ide tartoznak a

(11)

végtelen tizedes törtek is, mégpedig azért, mert osztással kifejezhetők). Ezek körében már mind a négy alapművelet mindenkor elvégezhető.

Azonban még ebben a számkörben sem végezhető el mindig a gyökvonás. A gyökvonás a négyzetreemelés ellenétes művelete, ami azt jelenti, hogy egy adott számot önmagával megszorzok: 22=2×2. A 4-ből, a 9-ből vonható gyök 4 2

±

= , 9=±3, de már a 3-ból nem, ugyanis nincs olyan természetes szám, azaz a fentiek szerint olyan, ami osztással előállítható, amit önmagával megszorozva 3-at adna. Tehát ismét újabb számnemek bevezetésére van szükség: az irracionális számok és komplex számok bevezetésére. A négyzetgyök 2 vagy a négyzetgyök 3 tehát azért irracionális szám, mert nem fejezhető ki tört eredményeként. Két számnak egymáshoz való viszonya (rációja, a:b) törtszám (a/b). A négyzetgyök 2 vagy 3 pedig nem ilyen. Bármely törtszám csak megközelítheti azt az értéket, amelyet mai gyakorlat szerint az adott módon, négyzetgyökjel alá írunk.

A racionális számok a véges, illetve végtelen szakaszos tizedestörtek, az irracionális számok pedig a végtelen nem szakaszos tizedestörtek. A kettő együtt adja a valós számokat, így valós számoknak tulajdonképpen az összes felírható tizedestörtet tekintjük. Pl. valós szám a -5, 0, 2, 4/3 és a négyzetgyök 2 is.

Transzcendens számok: azok az irracionális számok,

amelyek nem megoldásai egyetlen egy egész-együtthatós egyenletnek sem. Transzcendens szám a π (pí= 3,14…) és a természetes logaritmus alapja, az e.

Az e számot Euler a következőképpen definiálta:

) ! 1 ! 2 1 ! 1 1 1 ( n + + + +  értéke közelítőleg e=2,718281828459045235.

(12)

2.1. Függvénytani alapfogalmak

A függvénykapcsolat definíciója: Az y mennyiség – a függő változó – az x mennyiség – a független változó – függvénye, általános formában: y=f(x). Valamely függvény értelmezési tartománya azon értékek összessége, amelyeket x felvehet. Az y értékek összességét, halmazát értékkészletnek nevezzük.

A függvénykapcsolatot legtöbbször értéktáblázattal,

grafikonnal vagy formulával adjuk meg. A formulával

adott függvény értelmezési tartománya azon valós számok halmaza, amelyekre a formulában kijelölt műveletek értelmezve vannak. Pl. az y=ax+b -∞<x<∞, azaz bármilyen valós számra értelmezhető, a

y=lg(x) függvény esetében a kapcsolat csak az x>0-ra van értelmezve.

2.1.1. Elemi függvények

A függvényeket feloszthatjuk algebrai és

transzcendens függvényekre. Az algebrai függvények

közé tartoznak a racionális egész, racionális törtfüggvények, valamint az algebrai irracionális függvények. A nem algebrai függvényeket transzcendens függvényeknek nevezzük.

Elsőfokú függvény (lineáris függvény): y=ax+b. Itt a0 és b valós számok. A függvény képe egyenes, az a érték meghatározza az egyenes meredekségét, a b-érték pedig, hogy hol metszi az y tengelyt. Ha b=0 akkor az egyenes az origón megy át; ez a kapcsolat fejezi ki az egyenes arányosságot.

Pl. az y=–2x+3 formulával jelzett függvény értéktáblázattal és grafikonnal megadva: x -2 -1 0 1 2 3 4 y 7 5 3 1 -1 -3 -5 12 x y

(13)

Másodfokú függvény: y=ax2+bx+c (a0). A

másodfokú függvény képe parabola. Ha a>0, akkor szárai felfelé irányulnak; ha a<0

akkor lefele. Mindkét esetben a parabola tengelye párhuzamos az

y-tengellyel. x -3 -2 -1 0 1 2 3 4 5 6 y=x2 9 4 1 0 1 4 9 16 25 36 y=2x2 -3x+1 28 15 6 1 0 3 10 21 36 … y -3 -2 -1 0 1 2 3 4 5 6

(14)

0 2 4 6 8 10 12 14 16 18 -2 -1 0 1 2 3 4 x y

A racionális törtfüggvény: a racionális törtfüggvények mindig felírhatók két racionális egész függvény hányadosaként. A legegyszerűbb racionális törtfüggvény: y=a/x. A függvény képe hiperbola, amelynek tengelyei a koordinátarendszer szögfelezői. Ez a függvénykapcsolat fejezi ki a fordított arányosságot.

Algebrai irracionális függvények: olyan függvények

amelyekben a független változó az előzőkön kívül gyökvonásban is előfordul. Pl.

y

=

±

ax

+

b

. A függvény képe az x tengelyre szimmetrikus, az a és a b értékétől függően ellipszis, parabola vagy hiperbola is lehet.

Transzcendens függvények:

— Exponenciális függvények.

Általános alakja: y=ax, ahol a>0 és

a≠1

Pl.: y=2x

x -2 -1 0 1 2 3 4

y 0,2

5 0,5 1 2 4 8 16

— Logaritmus függvény. A logaritmus függvény az exponenciális függvény inverz függvénye; y=ax

inverz kapcsolata x=logay, ebből az a változók

felcserélésével kapjuk az a alapú

logaritmusfüggvényt: y=logax. Trigonometrikus függvények: a trigonometrikus függvényekben a független változó valamely szögfüggvénye szerepel. A szögfüggvények y=sin(x);

y=cos(x); y=tg(x); y=ctg(x). A

szögfüggvények periodikusak 14 -1 -0,5 0 0,5 1

(15)

(a sinus- és cosinus-függvény képe köznapi nyelven: hullámvonal).

2.2. Az adatok kerekítése

Gyakran nincs szükségünk törteredményekre, vagy megelégszünk 1, vagy 2 tizedesjeggyel. Ilyenkor kerekítjük a tizedestörteket. A 3,157 egészre kerekítve 3, egy tizedesre kerekítve 3,2, két tizedesre pedig 3,16. A 7,864 pedig: 8; 7,9; 7,86 – azaz 5-ös értékig, azt is beleértve lefelé, 5-től pedig felfelé kerekítünk.

2.2.1. Szignifikáns számjegyek

A statisztikai szám1 esetében (részint a kerekítés okán) szignifikáns – jelentéssel bíró – számjegyekről beszélhetünk. Ha valakinek a testmagasságát pl. 1,76 méterként adjuk meg, ez azt jelenti, hogy a tényleges magasság 1,755 és 1,765 m között van. Ha pontosabban akarjuk az előbbi magasságot megadni, akkor 1,760-nak kell megadni (négy szignifikáns jeggyel); még pontosabban 1,7600 (öt szignifikáns számjegy). A 0,0012300 számban hét szignifikáns számjegy található.

A számjegyeket (a tizedesvessző helyét kijelölő nulla kivételével) szignifikáns jegyeknek nevezzük.

Gyakran nem is tudunk teljesen pontos adatokat prezentálni az adatfelvételi hibák folytán. Példa: a legutóbbi népszámlálás, mely 2001. január 31. és február 1. közötti éjfél eszmei állapotát próbálta rögzíteni. Elméletileg ekkorra minden magyar állampolgár „meg lett számlálva”, ám gyakorlatban

1 A statisztikai szám mindig valamire vonatkozik: például Magyarország lakossága 2003. január elsején 10 152 ezer fő; a 2002-ben 3900 általános iskola volt hazánkban. A matematikai szám elvonatkoztatott, puszta szám, pl.: 10 152 000, illetve 3900.

(16)

lehettek néhányan, akiket nem ért el a kérdezőbiztos. E pontatlanság, hiba jelzésére gyakran találunk így megadva népességadatot: Magyarország lakossága 2002-ben 10.277 ezer fő. A szignifikáns számjegyek: 10.277. Az utolsó kiírt számjegy helyi értéke ezres. Az abszolút hibakorlát ennek a számtani közepe: â = 1000/2 = 500 – tehát a 10.277 ezer statisztikai pontossággal így értendő 10.277.000±500 fő.

Amikor lehetséges, akkor tehát számjegyekkel írjuk a szignifikáns értéket és betűvel jelezzük a nagyságrendet. (Pl.: 10 millió fő, 93 ezer m2.)

Természetesen létezik teljes körű adatfelvétel, pontosan megadható például a 2003/2004-es tanév tavaszi szemeszterére beiratkozott FEEFI-hallgatók

száma stb.

2.3. Logaritmusok és használatuk

Minden pozitív számot ki lehet fejezni a 10 hatványaként. Ha N a szám, akkor létezik olyan p, amelyre igaz, hogy N=10p. Ezt a p-t nevezzük az N

tízes alapú logaritmusának. 1000= 103, ezért log 1000=3, 0,01= 10-2, ezért log 0,01=–2. Ha az N 1 és 10 közé, azaz 100 és 101 közé eső szám, akkor p=logN 0 és 1 közé esik, értéke pedig a logaritmustáblázatból kereshető ki.

A logaritmus használatával a szorzás összeadássá, az osztás kivonássá, a hatványozás szorzássá, a gyökvonás osztási műveletre „egyszerűsödik”. Pl.:

M×N= log M+log N M/N= log M-log N Mk=logM×k 2 log N N = 5 log 5M = M 16

(17)

Minden pozitív szám logaritmusa kifejezhető az 1 és 10 közötti számok logaritmusaiból. Pl.: 2,36 logaritmusértéke

log2,36= 0,3729 azaz 2,36=100,3729

A 23,6 felírható 10×2,36-ként, a 236=100×2,36= 102×2,36, azaz ezen számok logaritmusa:

23,6=log10+log2,36= 1+ 0,3729= 1,3729, illetve 236=log100+log2,36 =2+0,3729= 2,3729. 6864 , 0 2 1,3729 2 6 , 23 log 23,6 = = =

A logaritmustáblázatból „visszakeresve” a 0,6864-et ≈4,86 kapunk.

A logaritmusértékekben a tizedesvessző utáni decimális részt mantisszának, a tizedesvessző előtti egész számot a logaritmus karakterisztikájának nevezzük. A karakterisztikát magunknak kell meghatározni, a mantisszát táblázatból keressük ki. Pl. a 12650 logaritmusánál a karakterisztika 4 (eggyel kevesebb, mint a tizedesvessző előtti számok).

2.4. Sorozatösszeadások, szorzatok

A változókat az x,y,z betűkkel jelöljük. Ha egy adott változó több értéket is felvehet, akkor alsó index jelzi ezt. Az xj (yj, zj) jelöli az x (y,z) változó által felvett

összesen n számú x1, x2, x3 …xn értéket. A j helyett

vagy mellett használatos az i, k, p, q karakter is.

Képletekben sok (n darab) szám összeadását röviden is jelölhetjük a görög nagy szigma (Σ) jel használatával. A változónál alsó indexben jelöljük, hogy hányadik eleme a sorozatnak. Pl.:

x1+x2+x3+…+xi+…+xn=Σxn

Matematikailag akkor korrekt a jelölés, ha a szumma jel alján a kezdő, tetején az utolsó értéket

(18)

megadjuk, de ha nem jelent félreértést, akkor nem szükséges feltüntetni a határokat:

= n i n x 1

(szumma x, i egyenlő egytől n-ig)= Σxn

Ha ugyanezen számokat össze kell szorozni, akkor a görög nagy pí betűvel (Π) jelezzük a szorzást:

x1×x2×x3×…×xi×…×xn=

=

= n n i n x x 1 2.5. Kombinatorikai alapok

Összetett események valószínűségének számításakor, ha az egyik esemény n féleképpen, a másik esemény

m-féleképpen következhet be, akkor a két esemény n×m-féleképpen következhet be.

Például ha a Hallgatói Önkormányzat (HÖK) elnökére 3 jelölt van, alelnökére pedig 4, akkor a két tisztség 3×4=12 féleképpen tölthető be.

Ugyanígy „megjósolhatjuk”, valószínűsíthetjük, hogy egy 52 lapos (francia) kártyacsomagból ha két lapot húzunk ki, mekkora a valószínűsége, hogy mindkettő ász? Ha egymás után két lapot húzunk, akkor az első lap esetében 4/52-ed a valószínűsége, hogy a lap ász (négy ász van egy csomagban), a második lap kihúzása előtt viszont már csak 3/51-ed, hiszen egy ász már hiányzik. Ha viszont az első lapot visszatesszük, akkor újra 4/52-ed valószínűséggel húzhatunk ászt.

Alapvetően tehát kétféle módon, visszatevés nélkül és visszatevéssel húzhatunk lapot, s ennek megfelelően más-más valószínűséggel: visszatevéssel: 4/52×4/52 = (4×4)/(52×52) = 16/2704 = 1/169 ≈ 0,00592 visszatevés nélkül: 18

(19)

4/52×3/51 = (4×3)/(52×51) = 12/2652 = 1/221 ≈0,004525

2.5.1. Faktoriális

Egy szám faktoriálisán azt értjük, hogy 1-től az adott számig összeszorozzuk a természetes számokat. A faktoriális jele a felkiáltójel: (!). A faktoriális tehát a következő módon értelmezzük. (A 0! definíció szerint=1)

n!= n×(n–1)×(n–2)…×2×1

Pl.: 5!=5×4×3×2×1=120 4!3! =(4×3×2×1)×(3×2×1)=144

2.5.2. Permutációk

Ha a sorrendet is figyelembe véve választunk ki egy sokaságból egyedeket (tehát pl., az alma-körte párost megkülönböztetjük a körte-alma párostól), vagy hogy hányféleképpen rakhatunk egymás mellé különböző elemeket, akkor permutációról beszélünk.

Például hányféle sorrendet alakíthatunk ki a magyar kártya piros lapjaiból? 8 kártyalapot nyolc helyre tehetjük le. Az első helyre a 8 lap bármelyike kerülhet (a 7-estől az ász-ig bármelyik). A második helyre a maradék hét lap bármelyikét tehetjük, a harmadikra a maradék hat lap bármelyikét és így tovább. A nyolc lap lehetséges sorrendjeinek száma tehát:

8×7×6×5×4×3×2×1=8!= 40 320

Ha a sokaság n számú tárgyból áll és r számút húzunk ki közülük, akkor a permutációk számát Pn,r-rel jelöljük, s így számítjuk:

)!

(

!

P

n,r

r

n

n

=

Például: hányféleképpen tudunk 3 lapot kiválasztani a nyolc piros lap közül úgy, hogy a kiválasztás sorrendje is fontos?

(20)

Az első helyre bármelyiket tehetjük a nyolc lap közül, a másodikra bármelyiket a maradék hét lap közül és végül a harmadikra bármelyiket a maradék hat lap közül. Tehát: 8×7×6=336 féleképpen választhatunk.

Az általános összefüggés szerint:

2.5.3. Kombinációk

Ha a kihúzási sorrend nem mérvadó (azaz az abc=acb=bac=bca=cab=cba, s csak egyszer vesszük figyelembe) akkor n elem r-ed osztályú kombinációját kapjuk. A kapott kombinációk jelölése:

A piros

kártyalapokra:

A lottó-húzásoknál szintén visszatevés és ismétlés nélkül sorsolják ki a számokat: 43949268 120 5273912160 1 2 3 4 5 86 87 88 89 90 )! 5 90 ( ! 5 ! 90 5 90 = = × × × × × × × × = − =    

Azaz 43 949 268 féleképpen választhatunk ki 90 szám közül ötöt úgy, hogy a kiválasztott számokat nem tesszük vissza a húzás után, s a kihúzás sorrendje nem számít: ennyi lottócédulát kellene kitölteni, hogy biztosan legyen egy öttalálatos szelvényünk.

A hatoslottónál: 20 8145060 720 5864443200 6 5 4 3 2 1 40 41 42 43 44 45 )! 6 45 ( ! 6 ! 45 6 45 = = × × × × × × × × × × = − =     336 6 7 8 1 2 3 4 5 1 2 3 4 5 6 7 8 ! 5 ! 8 )! 3 8 ( ! 8 = × × = × × × × × × × × × × × = = − )! ( ! ! r n r n r n − =     56 6 336 3 2 1 6 7 8 ! 5 ! 3 ! 8 )! 3 8 ( ! 3 ! 8 = = × × × × = × = − ×

(21)

2.5.3.1 Példák a valószínűségszámításra és kombinatorikára

Példa 1.: Egy zsákban 4 fehér és 2 fekete, egy másikban pedig 3 fehér és 5 fekete golyó van. Mindegyikből egy golyót húzunk ki. Mekkora annak valószínűsége, hogy a 2 golyó közül a.) mindkettő fehér; b.) mindkettő fekete; c.) egyik fehér, a másik fekete?

a.) Az első zsákban 4+2=6 golyó van összesen, ebből 4 fehér, a másikban összesen 3+5=8 golyó, melyből 3 fehér, tehát a két fehér golyó kihúzásának valószínűsége: 4 1 5 3 3 2 4 4 =       + ×       + = p b.) Két feketére: 24 5 5 3 5 2 4 2 =       + ×       + = p

c.) Az az esemény, hogy az egyik fehér, a másik fekete megegyezik azzal, hogy vagy az első fehér és a második fekete, vagy az első fekete és a második golyó fehér. Ezért a két lehetőség együttes valószínűsége: 24 13 48 26 48 6 48 20 8 3 6 2 8 5 6 4 5 3 3 2 4 2 5 3 5 2 4 4 = = + = × + × = =       + ×       + +       + ×       + = p

Példa 2.: Öt diák elhatározza, hogy együtt vizsgázik, de mindig más sorrendben. Hányszor kellene vizsgázniuk?

Az első vizsgán bármelyikük lehet az első. Ennek rögzítése után a második hely négyféleképpen tölthető be stb. Az öt diák lehetséges sorrendjeinek (permutációjának) száma:

(22)

5×4×3×2×1=120=5! általánosan: n×(n-1)×(n-2)×…×1=n!

Azaz ha tíz szemeszter áll rendelkezésükre, átlagosan 6 vizsgával (10×6=60), akkor nem tudják teljesíteni vállalásukat.

Hányféleképpen vizsgázhat le ez az öt diák, ha egyszerre hárman mehetnek be a vizsgáztatóhoz, de nem mindegy hogy milyen sorrendben az adott három?

Az első vizsgahármasból a legelső bárki lehet, a második négyféle, a harmadik háromféle módon tölthető be. Tehát:

5×4×3=60 általánosan: n×(n-1)×…(n-r+1), ahol „n” az összlétszám, „r” pedig az egyszerre kiválasztottak száma. Így éppen teljesíthetik vállalásukat

S hányféleképpen, ha egyszerre hárman mehetnek be, de nem vesszük figyelembe, hogy hármójuk sorrendje milyen?

Az általános forma felhasználásával:

22 10 2 20 3 2 1 3 4 5 ! ) 1 ( ) 1 ( )! ( ! ! = = × × × × = + − − = − =     r r n n n r n r n r n 

(23)

3. A nagy számok törvénye és

a reprezentatív megfigyelés

A leíró statisztika minden esetben a megfigyelt teljes

sokaságra vonatkoztatva dolgozik, s így értelemszerűen mindig (közel) pontos adatokkal tud szolgálni.

A statisztikai következtetés (induktív statisztika) valamely okból nem tudja számba venni a meghatározott sokaságot, ezért a sokaságból vett

minta adatainak megfelelő feldolgozása alapján von le

következtetést a teljes sokaságra vonatkozóan. Az induktív statisztika értelemszerűen valamekkora hibaszázalékkal dolgozik; pontosabban: mindig egy meghatározható valószínűséggel állít valamit a sokaságról. A módszere tehát kiegészül annak meghatározásával, hogy mekkorának kell lennie a mintának ahhoz, hogy egy megkívánt valószínűséggel jelenthessen ki valamit a sokaságról. (A közvélemény-kutató intézetek például a havi pártpreferencia-vizsgálatok esetében 1000-1500 fős reprezentatív mintán tendenciajelleggel 5%-os hibával képesek megválaszolni azt a kérdést, hogy „ha ma lennének a választások, Ön melyik pártra szavazna?”. Ha nem tendenciajelleggel történik a vizsgálat, akkor 5-10 ezer fős minta szükséges az 5%-os hibával történő becsléshez.) Belátható: a minta elemszámának növelésével a hiba nagysága csökkenthető; ad absurdum: ha a mintába a teljes sokaság bekerül, a hiba 0-vá válik.)

A mintavételes statisztika módszerével lehet élni, ha a teljeskörű adatfelvétel túlságosan költséges és/vagy sokáig tartana. A teljeskörű népszámlálás például nagyon költséges, ezért csak 10-15 évenként

(24)

kerül rá sor. Ez idő alatt jelentős változások történhetnek mind a népességszámban, mind a népesség kor-, iskolázottsági, lakóhely-megoszlási stb. adataiban. Ezekről a változásokról a mikrocenzusok adnak képet néhány tízezres mintákon végzett adatgyűjtés alapján. Ha a teljeskörű adatfelvétel (tehát egy országos népszámlálás) alkalmával mintavételes adatgyűjtés is történik, akkor azok összevetésével ellenőrizhető a mintavételes módszer megbízhatósága, illetve finomíthatók módszerei.

A mintavételes statisztika módszerével kell élni, ha a teljes körű adatfelvétel lehetetlen. A pszichológiai kutatások történhetnek leíró statisztikai eszközökkel egy adott személy vagy csoport esetében. Tekintheti a csoportot mintának, pl. annak vizsgálatára, hogy milyen reflexidő jellemzi a magyarországi korcsoportokat. Ám ha általános emberi tulajdonságokat kíván számszerűsíteni (minden, valaha élt, most élő és még meg sem született – azaz végtelen számú sokaságot), akkor csakis a mintavételes, azaz a matematikai statisztika módszereivel dolgozhat.

A szociológiai kutatások szintén alapvetően mintavételen alapulnak.

A statisztikai következtetés tehát mintából gyűjt adatot, s az adatfeldolgozás utáni eredményelemzés a teljes sokaságra vonatkozik meghatározott valószínűséggel: a sokaságból vett minta adataiból próbálunk következtetni a sokaság megfelelő paraméterére. Más esetben arra vagyunk kíváncsiak, hogy egy minta melyik sokaságból került ki. Ám egyik esetben sem jelenthetjük ki száz százalékos biztonsággal következtetésünket, hanem csak valamilyen valószínűséggel állíthatunk bármit is.

(25)

A valószínűségszámítás a matematikának viszonylag fiatal ága, kibontakozásában nagy szerepe volt a szerencsejátékoknak. Pascal, a nagy francia fizikus-matematikus az elsők között foglalkozott ezzel a kérdéssel:2

„…az emberek azt hiszik, hogy ha valamit nem tudnak biztosan – már pedig biztosan szinte semmit nem tudnak – akkor nem tudnak semmit. Gondolatmenetem kiinduló pontja éppen az, hogy ez tévedés. A részleges tudás is tudás és a részleges bizonyosság is értékes lehet, különösen, ha tudom azt, hogy e bizonyosság milyen fokú. »Hogyan, hát lehet a bizonyosság fokát mérni, számmal kifejezni?« – kérdezheti valaki. Valóban lehet – válaszolom erre –, minden játékos ezt teszi. Amikor egy játékos egy kockát feldob, nem tudhatja, milyen számot fog dobni, de azért mégis tud valamit: azt hogy mind a 6 számnak egyenlő esélye van. Ha a teljes bizonyosságát választjuk egységnek, a hatos dobásának bizonyosságát (és ugyanígy a többi 5 szám dobásának bizonyosságát) 1/6 fejezi ki. Ha egy kockát négyszer egymás után dobunk fel, akkor, mint már de Méré lovag észrevette, előnyös arra fogadni – egyenlő tételek mellett – hogy legalább egyszer 6-ost dobunk: ez szerintem azt jelenti, hogy azon esemény bizonyosságának, hogy a négy dobás során legalább egyszer 6-ost dobjunk, a foka ½-nél nagyobb. Ha egy esemény bekövetkezésének és be nem következésének esélyei pontosan egyenlőek, mint például a pénzfeldobásnál a fej és írás esélyei, azt mondom, hogy az esemény 2 Blaise Pascal (1623–1662) sem iskolába, sem egyetemre nem járt, apja tanította őt mindenre. Pascal már tizenhat éves korában megírta a kúpszeletekről szóló munkáját; tizenkilenc éves korában pedig feltalált egy mechanikus számológépet – joggal tekinthetjük a kibernetika úttörőjének. 1646-ban igazolja a légnyomás függését a tengerszint feletti magasságtól, felfedezi a hidrosztatika alaptörvényét és a hidraulikus prés alapelvét. A tudományban szilárdan a kísérleti módszer és az előítélet nélküli logikus gondolkodás oldalán állott.

1653-ban Pascal előkelő és nagyvilági életet élő barátaival, Roannez herceggel, de Méré lovaggal és Mitonnal együtt Poitou-ba utazik. Valószínűleg ezen utazás alatt tette fel Pascalnak de Méré lovag azt a két, a szerencsejátékokra vonatkozó kérdést, amelyről Pascal 1654-ben Fermat-tal levélváltást folytatott. E levélváltással vette kezdetét a valószínűségszámítás. E levelek megjelentek Rényi Alfréd: Levelek a valószínűségről című kötetben (Typotex Kiadó, Budapest. 1984) Az első kérdés a következő: hányszor kell két kockával dobni ahhoz, hogy annak a valószínűsége, hogy legalább egyszer két hatost dobjunk, nagyobb legyen 1/2-nél?

(26)

bizonyosságának foka éppen ½, és ugyanennyi az esemény be nem következése bizonyossági foka. Persze az, hogy a biztos esemény bizonyossági fokát 1-nek választom, tulajdonképpen önkényes: lehetne ehelyett más számot is választani, pl.: 100-at, és akkor a véletlentől függő események bizonyossági fokát százalékban kapnánk meg. Lehetne esetenként más-más számot választani; ha például a kockadobásnál a teljes bizonyosságnak a 6 számot feleltetnénk meg, az egyes számok bizonyossági foka 1-nek adódnék. Legtermészetesebbnek azonban azt érzem, hogy a teljes bizonyosságnak az 1 számot feleltessük meg, és így minden véletlen esemény bizonyossági fokát azzal mérjük, hogy az hányadrésze a biztos esemény teljes bizonyosságának. A lehetetlen esemény bizonyossági foka természetesen 0 lesz; ha tehát egy véletlen esemény biztonsági foka pozitív szám, ez azt jelenti, hogy az illető esemény bekövetkezése lehetséges – habár ennek esélyei esetleg rendkívül csekélyek. Hadd jegyezem meg rögtön, hogy a bizonyosság fokának külön elnevezést adtam: valószínűségnek nevezem. A szó megválasztásán sokat töprengtem és végül ezt találtam a legkifejezőbbnek. A mindennapi szóhasználattal ez, úgy érzem, teljes összhangban van. Persze a mindennapi beszédben csak azt szoktuk mondani valamiről, hogy »valószínű«, vagy, hogy »nem valószínű«, illetve egy eseményről azt, hogy »valószínűbb«, mint a másik. Én viszont abból az alapfeltevésből indulok ki, hogy minden olyan eseménynek, amelyek bekövetkezésében nem lehetünk biztosak, de nem is tekinthetjük azt kizártnak, más szóval minden olyan eseménynek, amely a véletlentől függően be is következhet meg nem is, a valószínűsége egy meghatározott – nulla és egy közé eső – számmal fejezhető ki. Azoknak az eseményeknek, amelyeket a mindennapi szóhasználat szerint valószínűnek nevezzük, a valószínűsége 1-hez (a teljes bizonyosság valószínűségéhez) van közel. Míg azoknak az eseményeknek, amelyeket a mindennapi életben valószínűtlennek nevezünk, a valószínűsége 0-hoz (lehetetlen esemény »valószínűségéhez«) van közel.”

Két kocka esetében annak valószínűsége tehát, hogy mindkettő azonos oldalára esik (mind a kettő pl.

(27)

6-os), az egyenkénti valószínűségek szorzata adja meg: 1/6×1/6=1/36. Pénzérme esetén: ½×½=¼.

Négy érmére vonatkoztatva már felismerhető a szabályszerűség: Előfordulás F I Valószínűség F F F F 4 0 1/16=0,0625 F F F I 3 1 F F I F 3 1 4/16=0,25 F I F F 3 1 I F F F 3 1 F F I I 2 2 F I F I 2 2 F I I F 2 2 6/16=0,375 I F F I 2 2 I F I F 2 2 I I F F 2 2 F I I I 1 3 I F I I 1 3 4/16=0,25 I I F I 1 3 I I I F 1 3 I I I I 0 4 1/16=0,0625

Pascal egy egyszerű táblázatot, „háromszöget” készített az együtthatók alakulására N függvényében:

N 0 1 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 8 1 8 28 56 70 56 28 8 1

Minden sorban az első és utolsó szám 1; a közbensők pedig megkaphatók az előző sorban felette

(28)

balról és jobbról lévő két szám összegeként. Pl.: 10=4+6, 15=5+10

A Pascal-háromszögből könnyen kiolvasható 8 pénzérme feldobásának lehetséges eloszlása. Az összes variációs lehetőség 28=256. Ebből csak 1-1-szer fordul elő, hogy mind a nyolc érme azonos oldalára esett. 8 olyan eset van, amikor egy pénzérme „írás” a többi pedig „fej” stb. Ha diagramon ábrázoljuk az előfordulásokat jellegzetes eloszlástípushoz jutunk. Belátható, ha növeljük a feldobott pénzek számát, egyre több oszlopot kapunk, melyeket egyre inkább

„helyettesíthetünk” egy folytonos görbével. Ábránkon még szaggatottan jelezzük ezt a harangra emlékeztető burkológörbét.

Már az érmék feldobása előtt megmondhatjuk tehát, hogy mekkora a valószínűsége annak, hogy mind a négy (vagy mind a nyolc, akár mind a száz) azonos oldalára esik, vagy hogy mekkora a valószínűsége annak, hogy a négy (nyolc, száz) közül ugyanannyi lesz „írás” mint fej.

Galton egy készüléket szerkesztett a

binominális eloszlás modellezésére: a felső tölcséren egymás után apró söréteket szórt abba a dobozba, melyben ékek állták útját a golyócskáknak. Az első szinten egy, majd a másodikon 2, a harmadikon 3 stb. ék helyeződött el. Az ékeken véletlenszerűen vagy jobbra, vagy balra pattantak a golyók (egy golyó tehát úgy „viselkedett mint egy

28 1 8 28 56 70 56 28 8 1 0 10 20 30 40 50 60 70

(29)

pénzérme, amit annyiszor „dobtak fel”, ahány emelet volt az ékekből). A doboz alját rekeszekre osztotta Galton, s azt tapasztalta sokszori kísérlet után is, hogy a szélső rekeszekbe kevés, befelé egyre több, a középen levő rekeszbe pedig a legtöbb sörét gyűlt össze.

Ha a rekeszek számát tetszés szerint növeljük (elméletileg, hiszen a gyakorlatban egy rekesz nem lehet keskenyebb, mint egy golyócska átmérője) és a golyók méretét a matematikai ponthoz közelítjük, akkor a diszkrét eloszlás folytonos eloszlássá alakul át.

(30)

3.1. Főbb eloszlástípusok

A normális eloszlás nagyon elterjedt a sokaságra vonatkoztatva is. Normál eloszlást követ például az emberek testmagassága vagy a sorozatgyártású csapágygolyók átmérője. Vannak azonban más típusú eloszlások is; a legjellegzetesebbeket ábránk mutatja:

exponenciális lognormális (χ2) normális

pl.: vállalatnagyság jövedelmek testmagasság

A tiszta típusú eloszlások mellett azok kombinációival létrejövő eloszlások is ismeretesek. A mintavételen alapuló statisztikai módszerek legtöbbje a normális és a lognormális eloszlásokon (és ezek kombinációján) alapulnak. Ezek közül is a legfontosabb a normális eloszlás.

3.2. A binomiális és a normális eloszlás

Mind a binomiális, mind a normál eloszlás jellegzetes eloszlás. N darab pénzérme összes lehetséges eloszlása binomiális, az emberek testmagassága, testsúlya normál eloszlást követ.

3.2.1. Binomiális (Bernoulli3-) eloszlás

Ha egy esemény bekövetkezésének valószínűsége egy egyszeri kísérlet során p, és q=1-p ugyanezen

3 Jacob (Jacques) Bernoulli Ι. (1654−1705) 33 éves korában a bázeli egyetem matematikaprofesszora lett. Kiváló eredményeket ért el az analízis fejlesztésében, a sorelméletben, a differenciálegyenletek elméletében, a variációszámításban és a valószínűségszámítás alapjainak lerakásában. A Bernoulli-család több mint féltucat tagja örökítette meg nevét a matematikában.

(31)

esemény be nem következésének a valószínűsége

(pénzdobásnál p=q=0,5; kockadobásnál p=1/6,

q=5/6), akkor annak valószínűsége, hogy ez az

esemény N kísérletből pontosan X-szer következik be:

X N X X N X p q X N X N q p X N X p − − − =     = )! ( ! ! ) (

Példa: Annak valószínűsége, hogy 6-szor feldobva egy szabályos érmét, pontosan 2 alkalommal kapunk fejet: 64 15 6 1 ! 4 ! 2 ! 6 2 1 2 1 2 6 2 6 2 6 =       =       ×       ×     −

A fenti képlettel megadott diszkrét, binomiális valószínűségeloszlás X=0, 1, 2, 3, … N értékekre felbontva: N N N N N N q N q p N q p N q p p p q + +     +     +     + = + −1 −2 2 −3 3 3 2 1 ) ( ahol, 1, 1,2N N , … a binomiális együtthatók.

Példa egy pénzérme négyszeri (vagy 4 érme egyidejű) feldobására: 4 3 2 2 3 4 4 3 2 2 3 4 4 1 4 6 4 1 3 4 2 4 1 4 ) ( p qp p q p q q p qp p q p q q p q + + + + = = +     +     +     + = +

Az együtthatók (1,4,6,4,1) ismerős értékek: a négy érme egyidejű feldobásakor „kiókumlált” táblázatból.

(32)

3.2.2. Normális (Gauss-féle) eloszlás

Matematikailag Gauss4 német matematikus jellemezte az egyik legfontosabb folytonos valószínűségeloszlást, ezért szokás Gauss-görbének is nevezni (köznapi elnevezése alakja okán: haranggörbe).

Normális (Gauss-féle) eloszlás jelölése N(µ, σ), sűrűségfüggvénye: 2 2 2 ) ( 2 1 ) ( σ µ π σ × − − × = = X e Y x f

ahol µ=átlag, σ=szórás, π=3,14159:, e=2,71828… A normál eloszlást tehát jellemzi az eloszlás átlaga (a görbe csúcsa) és szórása.

3.2.3. A szórás tulajdonságai

A szórás az átlagtól vett eltérések négyzetes átlaga (jele a görög kis szigma σ, ha a szórás a sokaság szórása. A sokaságból vett minta szórását általában s betűvel jelöljük): N ) ( s) ( 1 2

= − = = N i i Y Y σ

A szórás számos előnnyel rendelkezik a szóródási statisztikákkal szemben. A legfontosabb: ha a sokaság normális eloszlású, akkor a szórással jól jellemezhetjük az átlagtól való eltérések gyakoriságát. Annak a

4 Gauss, Karl Friedrich, német matematikus, fizikus és csillagász (1777–1855). A göttingai egyetem tanult, ahol megismerkedett és baráti viszonyba került Bolyai Farkassal, akivel később is sok levelet váltottak. Gauss főképp mennyiségtani munkálatokkal foglalkozott, és már 1795-ben feltalálta a legkisebb négyzetek módszerét és a körosztás elméletét (s annak alapján a szabályos 17-szög szerkesztését). Ez évben kezdte meg nagy művét, a Disquisitiones arthmetica-t. Doktori értekezésében bebizonyította, hogy minden algebrai egyenletnek a komplex számok alkalmazásával annyi gyöke van, ahányadfokú az illető egyenlet.

(33)

sokaságnak, melynek nagy a szórása (azaz az egyes egyedei jelentősen eltérnek az átlagtól) az eloszlási görbéje „lapultabb”, mint a kis szórásúnak – σx>σy:

Mivel a görbe a sokaság eloszlását jelzi, a görbe alatti terület nagysága 1, azaz százalékosan 100%. Ha az átlagtól jobbra és balra kijelöljük a vízszintes

tengelyen a szórás értékét, akkor a felette lévő terület a teljes görbe alatti terület 68,27%-a. Két-két szórásnyira az átlagtól a befogott terület a teljes terület 95,45%-a, a három-három szórásnyi terület pedig már 99,73%.

Ez a szabályszerűség még mérsékelten szimetrikus normál-jellegű eloszlásnál is érvényesül.

Ha a sokaság testmagasságátlaga például 170 cm és a magasság szórása 10 cm (átlagos felnőtt lakosság), akkor tehát a fentiek értelmében a 170 ±10 cm-es tartományba esik 1000 ember közül 683-nak a testmagassága; a 170 ±2×10 cm-es tartományba, azaz 150—190 cm közé 1000 ember közül 954-é, s mindössze 3 olyan ember van, aki vagy alacsonyabb mint 140, illetve magasabb mint 200 cm. Az összefüggés akkor is igaz, ha más az egységnyi szórás. Ha egy másik sokaság testmagasságátlaga 190 cm, s az ő magasságszórásuk 1 cm (a sokaságot egy

átlag σx σy X Y -σ - 2σ - 3σ 6 8 , 2 7 % - 3σ - 2σ -σ - 3σ 9 5 ,4 5 % -σ - 2σ 9 9 , 7 3 %

(34)

díszezred jelenti), akkor a 190 ±1 cm-es tartományba, azaz 189—191 cm közé esik 1000 egyén közül 683 magassága, s csak 3 olyan ember akad ezer közül akiknek a 187—193 cm-es tartományon kívül esik a testmérete.

A sokaságból számított átlagnak, szórásnak stb. van mértékegysége – ha testmagasságból számítjuk, akkor cm, ha testsúlyból akkor kg stb. Ha ezektől el kívánunk tekinteni, akkor standardizálnunk kell értékeinket.

3.2.4. A standard valószínűségi változó

Az a változó, amely az átlagtól vett eltérést a szórás mértékegységében méri, a standardizált változó. Ha egy µ várható értékű σ szórású normális eloszlású valószínűségi változót N(µ,σ) a σ µ − = x Z

transzformációnak vetünk alá, akkor a z standardizált

valószínűségi változó nulla várható értékű (átlagú), 1 szórású N(0,1) standard normális eloszlású lesz, s transzformáció során „elveszti” a mértékegységét. (A 0 várható értéket úgy értelmezzük,

hogy most már nem érdekes, hogy minek az átlaga, s hogy cm, vagy kg mértékegységű-e, hanem hogy az eloszlás közepére helyezzük az X-tengely 0-pontját (megtehetjük, hiszen az eloszlás szimmetrikus). A szórásnak megfelelő standardizált változó is elveszti mértékegységét és 1-gyel lesz egyenlő , az eddigi egységnyi – a példában 10 vagy 1 cm – helyett. Most már egy normál eloszlási táblázattal dolgozhatunk (lásd II. melléklet. 34 Néhány z értékhez tartozó terület 0,1,0398 0,5,1915 0,8,2881 ,3413 1,2,3849 1,38,3997 1,65,4505 1,96,4750 ,4772 2,58,4950 ,4987 3,5,4998 z

(35)

Ezt a z-értéket behelyettesítve a Gauss-féle sűrűségfüggvénybe, megkapjuk annak az ún. standard alakját: 2 2 2 1 ) ( Z e Y x f − = = π

A standardizálás tehát összehasonlíthatóvá tesz különböző dimenziójú és paraméterű eloszlásokat.

3.2.4.1 Példák a standardizálásra

Példa 1.: Statisztika vizsgán az évfolyam tesztjeinek pontátlaga 72, szórása 15 volt.

Határozzuk meg azon hallgatók standard eredményét, akik a.) 60; b.) 72 és c.) 93 pontot értek el! a.) 8 , 0 15 72 60 − = − = − = s X X z

A normál eloszlás táblázatból (II. melléklet) z=0,8-hez 0,2881 érték tartozik, azaz a várható értéktől jobbra a terület nagysága: 28,81%. Mivel z értéke negatív előjelű volt, ez azt jelenti, hogy a 60 pontot elért hallgatónál az összes hallgató 50-28,81= 21,19%-a nálánál rosszabb eredményt ért el, 78,81%-a pedig jobbat.

b.) Az a hallgató akinek a pontszáma éppen megegyezik az átlaggal, természetesen az eloszlás közepén helyezkedik el (normál eloszlást feltételezve), az ő standard eredménye: 0 15 72 72− = = − = s X X z

c.) A 93 pontot elért hallgatónál:

4 , 1 15 72 93− = = − = s X X

z → ehhez a z értékhez a II.

(36)

41,92%, azaz az összes hallgató kereken 8 százaléka ért el nálánál jobb eredményt.

Példa 2.: Egy hallgató 54 pontos eredményt ért el az informatika kollokviumon, melyen az évfolyamátlag 48 pont volt 5 pontos szórással. Ugyanezen hallgató statisztikából 76 pontot ért el, ahol az átlagos pontszám 69 volt 12 pontos szórással. Melyik tárgyból ért el relatíve jobb helyezést?

2 , 1 5 6 5 48 54 inf = − = = z illetve: 0,58 12 7 12 69 76− = = = st z

Informatikából ért el relatíve jobb eredményt, hiszen az informatikaátlagnál 1,2 standard szórásnyira volt jobb, statisztikából viszont csak 0,6 szórásnyival. Példa 3.: Az egérpopuláció átlagos testsúlya 36 gramm, 1,9 grammos szórással. Az elefántnépesség

átlagsúlya 42 mázsa 8,2 mázsás szórással. Mickey Mouse súlya 38 gramm, Jumbóé 44,2 mázsa. Melyikőjük súlya nagyobb a saját csoportjában?

Tehát Mickey Mouse súlya csak 0,105 standard értékkel tér el a várható értéktől, ehhez A II. mellékelt táblázatában cca. 0,0418 érték tartozik, Jumbóé viszont 0,268, melyhez cca. 0,1056 érték tartozik (lineáris extrapolációval: a táblázati értékeknél ugyanis 0,26-hoz 0,1026 míg 0,27-hez 0,1064 tartozik. A két érték különbözetének tizede 3,8, ennek nyolcszorosa 30,4 —0,1026+0,0030=0,1056). Tehát 0,5-0,105=0,395 – az egerek 39,5%-a Mickey Mouse-nál nehezebb, viszont csak 23,2% nehezebb elefánt van Jumbónál: Jumbóra inkább ráfér egy kis fogyókúra. Példa 4.: Tudjuk, hogy egy horgásztóban lévő halak átlagos hossza µ0 =28 cm σ0 =4 cm-es szórással. A

36 105 , 0 9 , 1 36 38 .Mouse= − = M z 0,268 2 , 8 42 2 , 44 − = = Jumbó z

(37)

halak hossza normál eloszlást követ. A horgászoknak vissza kell dobniuk azokat a halakat, melyek hossza nem éri el a 30 cm-t. Milyen arányban vannak a tóban a kifogható és visszadobandó méretű halak?

A válaszhoz standardizálnunk kell a 30 cm-es értéket:

A II. táblázatban az 0-tól balra eső területek vannak megadva. Mivel a görbe

szimmetrikus, a 0-tól balra eső görbe alatti terület 0,5 (50%)A z=0,5-höz tartozó szürke terület nagysága= 0,1915 (19,15%). E két terület összesen a visszadobandó halak tartománya, azaz 100— 69,15≈30% az elvihető halak aránya. 100 kifogott közül tehát átlagosan harmincat vihetnek haza a horgászok.

3.3. Kapcsolat az eloszlások között

Galton készülékénél már utaltunk a binomiális és a

normális eloszlás közötti kapcsolatra. Ha N elég nagy

és sem p, sem q nincs közel a 0-hoz, akkor a binomiális eloszlás jól közelíthető a standardizált normális eloszlással:

Npq Np X z= −

(p-vel jelöljük a lehetséges két állapot közül az egyik valószínűségét, q-val a másik állapot valószínűségét. Így például p jelölheti pénzfeldobás esetében az „írás”,

q pedig a „fej” valószínűségét. Értelemszerűen p+q=1,

és szabályos érme feldobása esetén p=q=0,5 (50%) Ha több lehetséges állapot is van (mint kockadobás esetén), akkor p-vel a számunkra kedvező, q-val a

5 , 0 4 28 30 0 0 == σ µ − = x z 0 0,5 z A kifogható halak tartománya

(38)

számunkra kedvezőtlen valószínűséget jelöljük. Kockadobásnál a számunkra kedvező, ha 6-os dobunk, ennek valószínűsége 1/6-od; minden más eset számunkra kedvezőtlen, melynek valószínűsége 5/6-od. Természetesen itt is igaz: p+q=1, illetve p=1-q.

3.3.1. Diszkrét egyenletes eloszlás

Végezetül említést kell tennünk a diszkrét egyenletes eloszlásra, bár a statisztikai módszerek között tiszta előfordulása ritka, de a köznapi életből számos példa hozható rá: lottóhúzás (mind a kilencven számból egy-egy van, azaz egy-egyenletes az eloszlás). A kockának hat oldala van, hat különböző számmal, ezek is egyenletesen oszlanak meg stb.

Az egyenletes eloszlás esetében minden kimeneti érték bekövetkezése egyenlően valószínű: 1/90-ned, 1/6-od stb.

(39)

4. A mintavétel alapjai

4.1. A statisztikai egység, sokaság és minta A statisztikai egység a megfigyelés tárgyát képező egyed, a statisztikai információ hordozója. Lehet élőlény, tárgy, képzett egység. A statisztikai sokaság a megfigyelt egyedek összessége. A statisztikai sokaság,

populáció (tömeg) valamely szempont szerint elhatárolt sokaság, összesség. Az egység a sokaság azon legkisebb része, amely még rendelkezik az alapvető ismérvekkel. Az ismérv tehát a sokaságot és az egységet határozza meg; követelmény hogy pontosan meghatározott, közérthető, felismerhető, mérhető legyen. A minta a sokaságból vett részhalmaz, amely belső arányaiban megfelel a sokaságnak, reprezentálja azt.

4.2. Statisztikai sokaságok típusai Az egységek jellege szerint lehet:

— diszkrét: az egységek világosan elkülönülnek pl. égitestek, molekulák, a lakosság egyedei; jellemző ábrázolása oszlopdiagram, illetve

— folytonos: az egységek bármekkora értéket felvehetnek pl. testmagasság, távolság; jellemző ábrázolása vonaldiagram.

Diszkrét adat általában a megállapítható (pl. férfi-nő), folytonos pedig a mért adatok java része. A folytonos sokaság tehát csak önkényesen elkülöníthető egységekből áll.

Egy család létszáma lehet 2, 3 vagy akár 10 is, de nem lehet, 3,14, azaz ez diszkrét változó. Egy személy testmagassága a mérés pontosságától függően lehet 1,7 méter, vagy 171 centiméter, 1,7185 méter vagy

(40)

171,8542 centiméter, azaz folytonos változó. (A mérőeszköz beosztása egyébként folytonos adattípust is diszkrétként jeleníthet meg: a csak centiméteres beosztású méterrúddal mérve, az egyedek testsúlya csak meghatározott értéket vehet fel, de ettől a testmagasság nem lesz diszkrét változó!)

Az egységek száma szerint lehet

— véges: a megfigyelt egységek száma véges; pl. népesség, esős napok száma.

— végtelen: a megfigyelhető egységek száma korlátlan, pl. fizikai vagy kémiai kísérlet.

A sokaság megadásának módjai:

Sokaság

Ismérv Véges Végtelen

Diszkrét valószínűségeloszlásFelsorolás, Valószínűségeloszlás Folytonos eloszlásfüggvényFelsorolás, Eloszlásfüggvény

4.3. A reprezentatív minta

A mintavételes statisztika a sokaságot reprezentáló mintákkal dolgozik. A sokaságból vett mintával szembeni legfontosabb követelmény ugyanis a reprezentativitás. Sajnos sohasem lehetünk biztosak abban, hogy a mintánk a minket érdeklő szempontból valóban reprezentatív-e. Ezt akkor tudnánk eldönteni, ha a mintában tapasztalt értéket össze tudnánk hasonlítani a sokasági értékekkel. A populációra jellemző értékek zöme azonban gyakorta nem ismeretes: nem tudjuk, mekkora a magyar lakosság testmagassága, testsúlya, IQ-ja stb. Ha ezeket az értékeket ismernénk, akkor a vizsgálatra nem is lenne szükség. Egy közvélemény-kutatás mindig arra kíváncsi, amivel kapcsolatban a lakosság álláspontja nem pontosan ismert, így az sem eldönthető, hogy a vizsgálat alapjául szolgáló minta reprezentatív-e.

(41)

Vannak azonban olyan jellemzők, amelyek a Központi Statisztikai Hivatal által gyűjtött adatok alapján jól ismertek. Tudhatjuk például a felnőtt népesség megoszlását nemek, korcsoportok és az iskolai végzettség szerint, s azt is, hogy milyen a lakosság lakhely szerinti aránya. Ezek az információk a tízévenkénti népszámlálás (és a közbülső időben végrehajtott mikrocenzus), illetve bizonyos kötelező és

rendszeres adatszolgáltatás statisztikai

feldolgozásából származnak. Azaz ezen változók szempontjából a minta reprezentativitása ellenőrizhető és szerencsés esetben megállapítható (ha a mintabeli érték nem tér el túlságosan a populációra jellemző értéktől).

Könnyen előfordulhat, hogy a minta valamely szempontból reprezentatív, de egy más szempont szerint már nem az. Egy mintát akkor nevezhetnénk minden további nélkül reprezentatívnak, ha valamennyi, a vizsgálatban feltett kérdés szerint reprezentálná a teljes populációt. Azt, hogy a reprezentativitás teljesül-e, éppen a legfontosabb (a kutatás tárgyát képező) változók szempontjából lehetetlen ellenőrizni. Ezért ebben az általános értelemben reprezentatív mintáról nem beszélhetünk. A minta mindig csak bizonyos változók szerint lehet reprezentatív. A vizsgálat tárgyát képező változó(k) szempontjából a reprezentativitás kérdése nem dönthető el.

A legnagyobb valószínűséggel a minta reprezentatívságát úgy biztosíthatjuk, ha a populáció minden tagjának egyforma esélyt adunk a mintába kerülésre. Az ezen az elven alapuló mintavételi eljárásokat véletlen vagy valószínűségi mintavételnek nevezik.

(42)

4.3.1. A valószínűségi mintavételi tervek fajtái

Egyszerű véletlen mintavétel: csak a legegyszerűbb

mintavételi keretek esetén használjuk. Módszer lehet például: ha a sokaság adott, akkor a lista elemeinek sorszámokat adunk, majd egy véletlenszám-táblázat segítségével kiválasztjuk a mintába kerülő elemeket, vagy számítógéppel kiválasztatjuk a véletlenszerű mintát.

Szisztematikus mintavétel: a teljes felsorolás

minden x-edik elemét választjuk be a mintába. (pl. 10000 névből minden 10-ediket). Periodikus elrendezésnél, azaz, ha van valamilyen rendszer az elrendezésben valamilyen szempont szerint, nem célszerű ezt a módszert használni, mint minőségellenőrzéskor sem, mert a gyártóberendezés működésében is adódhat periodicitás. E hatás kivédhető, ha az elemeknek sorszámot adunk, majd összekeverjük a sorrendet, és így választjuk ki szisztematikusan az elemeket a mintába. Az első elemet is célszerű véletlenszerűen kiválasztani (véletlen kezdőpontú szisztematikus mintavétel).

Rétegzett mintavétel: A rétegzés az előző két

módszernek kiegészítése lehet. Az előző kettő biztosítja a minta bizonyos fokú reprezentativitását, és lehetővé teszi a fellépő hiba megbecslését. A rétegzett mintavétel arra szolgál, hogy nagyobb fokú legyen a reprezentativitás. A rétegzett mintavétel a minta homogenitására alapoz. Itt nem az egész populációból választunk ki elemeket, hanem egyneműség szerint részcsoportokra osztjuk a populációt, így homogén alcsoportok jönnek létre, és mindegyikből megfelelő számú elemet választunk ki (pl. lakhely, iskolai végzettség nem szerint). A rétegképző változók azok a szempontok, amelyek szerint létrehozzuk a

(43)

részcsoportokat. Ennek megválasztása attól függ, hogy milyen változók állnak a rendelkezésünkre.

Többlépcsős csoportos mintavétel: olyankor

használjuk, amikor az alapsokaság tagjairól nincs teljes körű lista. Kiindulásképpen mintát veszünk a tagok csoportjai közül. Azután a kiválasztott csoportok tagjairól listát készítünk, végül pedig mintát veszünk az egyes kiválasztott csoportok tagjainak listáiból, így jutunk a végleges mintához. Vezérlő elv, hogy igyekezzünk minél több csoportot kiválasztani, és közben csökkentjük a csoportonként kiválasztandó elemek számát!

Elemszámmal arányos valószínűségű mintavétel: a

többlépcsős csoportos mintavétel egy speciális, hatékony módszere. Akkor használjuk, amikor az elemek egyes csoportjainak elemszáma eltérő. Ilyenkor az elemek egyes csoportjainak a csoport méretével arányos mintába kerülési valószínűséget adunk.

Nem arányos mintavétel és súlyozás: valószínűségi

mintának tekintendő minden olyan minta, ahol minden elemnek ugyanakkora esélye van bekerülni a mintába. Ennél a módszernél viszont abból indulunk ki, hogy a populáció minden elemének ismert, nem nulla esélye van a mintába kerülésre. Akkor lesz reprezentatív a minta, ha az esélyek szerint különbözően súlyozzuk az egyes mintába kerülő elemet. Önsúlyozó mintánál minden elem 1-es súlyozást kap. Akkor használjuk, ha különböző részsokaságokból nem egyforma aránnyal veszünk mintát, mert csak így biztosítható, hogy kellően nagy számú elemünk legyen az elemzéshez. Azt, hogy milyen pontossággal választjuk meg az egymáshoz képest meglévő arányt, az alapján döntjük el, hogy mekkora precizitást szeretnénk elérni.

(44)

4.3.2. Nem valószínűségi mintavételek

Szakértői (megítélésen alapuló) mintavétel: a kutató

saját megítélése szerint választja meg a minta elemeit. Pl. egy-egy jobb- és baloldali szervezetet választ ki a bal-, ill. a jobboldalisággal kapcsolatos kutatáshoz.

Kvótás mintavétel: kiindulópontja egy, a

célpopuláció jellemzőit leíró mátrix-táblázat. Itt azokat az elemeket választjuk ki, akik a táblázatban szereplő minden tulajdonsággal rendelkezik. Ezután az adott cellához tartozó minden elemnek az összpopulációban képviselt részarányoknak megfelelő súlyt adunk.

Egyszerűen elérhető alanyokra hagyatkozó mintavétel: Ez a módszer csak akkor indokolt, ha a

kutatót az csak az adott időpillanatban elérhető emberek érdeklik. Csak előzetes tesztre alkalmas.

4.4. A véletlenszerű minta előnyei

Az egyszerű véletlen mintavétel a populáció minden tagjának ugyanakkora esélyt ad a mintába kerülésre.

Mit nyerünk, és mit veszítünk a véletlen mintavétel alkalmazásával? A véletlen mintavétel esetén az egyik veszteség, hogy nem lehetünk száz százalékosan biztosak abban, hogy a mintánk valóban reprezentatív. Előfordulhat, hogy a minta torz még olyan alapvető szempontból is, mint a nemek szerinti megoszlás. Továbbá a véletlen mintavétel eredménye felett nem gyakorlunk kontrollt, „ki vagyunk szolgáltatva a véletlennek”. Ez azonban nem feltétlenül rossz.

A véletlen pártatlan és – legalábbis hosszú távon – kiegyensúlyozott mintaválasztást eredményez. Semmilyen mintavételi eljárás esetén sem tudjuk megmondani, hogy az aktuális minta reprezentatív-e a vizsgálandó szempontokból. Véletlen mintavétel esetén azt remélhetjük, hogy ez a reprezentativitás –

Referências

Documentos relacionados

Em 13 de Dezembro de 2010 apresentou novo requerimento a solicitar o pagamento das dívidas liquidadas pela Administração Fiscal relativas aos exercícios de 2006 e 2003, tendo este

Os interessados em adquirir quaisquer dos animais inscritos nos páreos de claiming deverão comparecer à sala da Diretoria Geral de Turfe, localizada no 4º andar da Arquibancada

Uma barra não uniforme, de peso W, está em repouso na posição horizontal, suspensa por duas. cordas leves, como mostra

E mais: é possível a coexistência de mais de um estilo de época em um mesmo período de tempo, principal- mente quando há uma transição de valores, ou seja, há uma mistura de

Dentre as relações entre a teoria da semiótica social, a Análise de Discurso Crítica e a Linguística Sistêmico-Funcional, cabe destacar a importância da compreensão e do foco

O Conselho Deliberativo da CELOS decidiu pela aplicação dos novos valores das Contribuições Extraordinárias para o déficit 2016 do Plano Misto e deliberou também sobre o reajuste

Em cumprimento ao deliberado pelo Conselho de Representantes da FETRATUH/SC na reunião extraordinária, realizada no dia 20 de fevereiro de 2015, as empresas descontarão

Το αν αυτό είναι αποτέλεσμα περσικής χοντροκεφαλιάς και της έπαρσης του Μιθραδάτη, που επεχείρησε να το πράξει με ένα γεωγραφικό εμπόδιο (γέφυρα σε φαράγγι) πίσω