Pravděpodobnostní rozdělení spojité náhodné veličiny pro výběrové soubory

 

Cílem statistického usuzování je získat představu o vlastnostech zkoumaných jevů na úrovni celé populace a to na základě dat získaných z jednoho nebo několika výběrových souborů. V rámci statistické analýzy počítáme z výběrových dat sledovaných náhodných veličin různé statistiky a provádíme jejich interpretaci pomocí metod statistického usuzování (statistické indukce), kam patří především Odhady parametrů statistických souborů, Testování statistických hypotéz ad.). V této části popíšeme náhodné chování (pravděpodobnostní rozdělení) některých důležitých statistik, které používáme v oblasti statistického usuzování při práci s výběrovými soubory.

Výběrové rozdělení statistiky je pravděpodobnostní rozdělení hodnot, které statistika nabývá ve všech možných výběrech o daném rozsahu ze specifikované populace. Kdybychom provedli kompletní výběr všech jedinců z populace a spočítali pro sledovanou proměnnou popisné statistiky, zjistili bychom parametry jejího statistického chování zcela přesně. V případě, že máme k dispozici pouze výběr (n jedinců) z populace, vypočítáme pomocí něho jenom odhady parametrů (statistiky) rozdělení. Jestliže provedeme další výběr z téže populace, nové statistiky se budou lišit také od těch, jež jsme spočítali z prvního výběru („výběrová variabilita“). Takto pojatou statistiku lze jistě považovat za náhodnou proměnnou a její rozdělení nazýváme výběrové rozdělení.

 

1. Studentovo t-rozdělení

(t-rozdělení bylo publikováno v r. 1908 anglickým chemikem W.S.Gossetem pod pseudonymem „Student“)

 

Studentovo rozdělení popisuje teoreticky odvozenou veličinu t, která vznikne transformací normálního rozdělení v případě, kdy pracujeme s výběrovými soubory z populace, kde neznáme skutečnou směrodatnou odchylku s a pouze ji odhadujeme pomocí výběrové směrodatné odchylky s. Používáme následující transformaci:

 

Veličina t se řídí Studentovým t-rozdělením a používáme ji ve statistice např. při výpočtech spojených s testováním rozdílu 2 průměrů (středních hodnot).

Studentovo t-rozdělení zohledňuje ve svém grafickém vyjádření a při statistických výpočtech chybu výběrových souborů, která je způsobena omezeným počtem jedinců výběrového souboru vzhledem k celé populaci.

Grafické vyjádření Studentova t-rozdělení pro různě velké výběrové soubory je uvedeno na obrázku 1.

 

Obrázek 1. Studentovo t-rozdělení

Popis: obr 2

t = t-statistika (náhodná veličina získaná transformací)

f(t) = hustota pravděpodobnosti t-statistiky

n = rozsah výběrového souboru

n = počet stupňů volnosti výběrového souboru

 

Studentovo t-rozdělení tvořeno celou třídou rozdělení (skupinou křivek), používaných pro různé výběrové soubory. Křivky mají zvonovitý tvar a jsou symetrické kolem nuly. Šířka křivky t-rozdělení je specifická pro jednotlivé výběry podle velikosti výběrového souboru (přesněji podle stupňů volnosti výběrového souboru n = n-1). U malých výběrů je křivka nižší a širší, naopak při zvětšování n ve výběru se křivka zvyšuje a zužuje (přesná šířka je dána vztahem: n/n-2).

V případě, kdy n = ¥, splyne křivka Studentova t-rozdělení s normovaným normálním rozdělením pro základní soubor, kde m = 0 a s = 1. Můžeme tedy říci, že s rostoucím n se tvar t-rozdělení aproximativně blíží k normálnímu rozdělení. Hodnoty t-rozdělení jsou tabelovány ve statistických tabulkách v podobě nejčastěji používaných kvantilů, které odpovídají určitým distribučním funkcím, zohledňujícím pravděpodobnost chyby při statistických výpočtech (viz  Tabulky: Kvantily t1-α/2 (n) Studentova t-rozdělení). Tyto specifické kvantily t-rozdělení mohou být využívány např. jako:

-        kritické hodnoty při statistickém testování rozdílu 2 průměrů (viz Parametrické testy: Studentův t-test)

-        koeficienty při výpočtu intervalů spolehlivosti průměru (viz Odhady parametrů základního souboru).

 

 

2. Pearsonovo c2–rozdělení (chí-kvadrát rozdělení)

 

Pearsonovo rozdělení platí pro teoreticky odvozenou veličinu c2, která se používá ve statistice při výpočtech spojených např. s testováním rozdílů četností souborů v oblasti kategoriálních dat. Rozdělení c2 poprvé odvodil K. Pearson kolem roku 1900, kdy navrhl c2-test dobré shody pro kategoriální data. Toto rozdělení má pouze jeden parametr, který nazýváme stupně volnosti (n).

Grafické vyjádření Pearsonova c2-rozdělení pro různé výběrové soubory je uvedeno na obrázku 2.

 

Obrázek 2. Pearsonovo c2–rozdělení (Chí-kvadrát rozdělení)

Popis: Pearson-graf

c2 = chí-kvadrát statistika

f(c2)= hustota pravděpodobnosti c2-statistiky

n = počet stupňů volnosti výběrového souboru

 

Křivky c2 rozdělení jsou asymetrické, rychle stoupající z hodnoty 0 podél osy y a poté pozvolna klesající směrem doprava v kladné části osy x. U malých výběrů je asymetrie a výška křivky značná a naopak u velkých souborů se křivka stává symetričtější a plošší. Hodnoty c2 statistiky jsou tabelovány ve statistických tabulkách v podobě nejčastěji používaných kvantilů (Tabulky: Kritické hodnoty rozdělení c2 ) a používají se ve statistických výpočtech např. jako:

-          kritické hodnoty při statistickém testování rozdílu četností (viz Testování hypotéz: c2-test)

-          koeficienty při výpočtu intervalů spolehlivosti pro rozptyl, příp. směrodatnou odchylku (viz Odhady parametrů základního souboru).

 

 

 

3. Fisher-Snedecorovo F-rozdělení

 F-rozdělení (pojmenované po R.A.Fisherovi a G.W.Snedecorovi) platí pro teoreticky odvozenou veličinu F, která se používá ve statistice při výpočtech spojených s testováním rozdílu 2 rozptylů. Popisuje variabilitu poměru 2 výběrových rozptylů (s12 a s22 ), jež se vypočítaly z normálně rozdělených dat, které pocházejí z populací, o nichž se předpokládá, že mají stejný teoretický rozptyl. Platí, že hodnoty s12/ s22 mají rozdělení F se stupni volnosti n1 = n1-1 a n2 = n-1, kde n1 a n2 jsou rozsahy výběrových souborů. Tvar křivky F-rozdělení tedy závisí na dvou parametrech n1 a n2.

Křivka F-rozdělení je asymetrická, začíná v nule, v krátkém úseku stoupá podél osy y a po obratu pozvolna klesá směrem doprava v kladné části osy x. U malých výběrů je asymetrie velká a křivka nízká, u velkých souborů se křivka stává symetričtější a vyšší.

Hodnoty F veličiny jsou tabelovány ve statistických tabulkách v podobě nejčastěji používaných kvantilů (Tabulky: Kvantily Fisher-Snedecorova rozdělení) a používají se např. jako kritické hodnoty při statistickém testování rozdílu 2 rozptylů (viz Parametrické testy: F-test). Grafické vyjádření F-rozdělení pro různé výběrové soubory v závislosti na stupních volnosti je uvedeno na obrázku 3.

 

Obrázek 3.  Fisher-Snedecorovo F–rozdělení

 

  F = F-statistika získaná podílem výběrových rozptylů

f(F) = hustota pravděpodobnosti F-statistiky

n1, n2 = počet stupňů volnosti výběrových souborů

 

 

 Zpět