Statistické soubory

Analýza hromadných jevů předpokládá definování množiny prvků, z nichž každý má celou řadu vlastností, z nichž některé jsou u každého prvku dané množiny stejné a jiné se u jednotlivých prvků mohou lišit. Jsou-li identické vlastnosti prvků určité množiny přesně stanoveny, mluví se o dané množině, vytvořené z prvků s těmito přesně stanovenými shodnými vlastnostmi jako o statistickém souboru. Statistickým souborem v oblasti biostatistiky může být např. množina zvířat, lidí, buněk, rostlin, mikroorganismů apod. Prvky statistického souboru jsou individuálními nositeli vlastností daného statistického souboru. Počet členů v souboru se nazýváme rozsahem daného statistického souboru.

 

Základní soubor (populace)

je soubor všech prvků (jedinců), u nichž se sledovaný znak může vyskytovat. Tento soubor představuje vlastní cíl statistického zkoumání. Obsahuje teoreticky všechny hodnoty, které mohou být při sledování dané vlastnosti získány, tzn. jde o oblast sledování, kterou chápeme jako souhrn hodnot, které tuto oblast tvoří. Počet členů v základním  souboru (rozsah) označujeme N. Tento rozsah může být konečný i nekonečný – především z časového hlediska:

a)      konečný rozsah – oblast sledování je přesně vymezena, např.: počet dojnic v určité stáji, kde sledujeme hladinu močoviny v krevním séru zvířat nebo počet absolventů VFU v roce 2002 (počet členů N u takové populace je přesně stanovitelný).

b)      nekonečný rozsah – oblast sledování je vymezena prakticky nekonečně, případně ji nelze vymezit časově. Např.: počet všech prasat v Evropě (ve světě), kde sledujeme hmotnost nebo počet absolventů VFU (počet členů N je proměnlivý, nelze ho přesně zjistit).

Z hlediska praktického použití je rozsah základního souboru pro potřeby statistického zpracování  (výpočetní vzorce) vždy uvažován a označován jako N= ¥.

Protože rozsah populace je zpravidla velmi značný, zjištění zkoumaných vlastností u všech jejích členů nebývá mnohdy prakticky vůbec uskutečnitelné nebo bývá nesmírně pracné a velmi nákladné. Proto se většinou dané sledování (měření, experiment) provede jen u vybraných jedinců ze základního souboru, kteří představují pouze jakýsi jeho vzorek - tvoří tzv. výběrový soubor.

 

Výběrový soubor (výběr)

je soubor určitého konečného počtu n jedinců vybraných ze základního souboru, u kterých je provedeno praktické sledování (měření) zkoumané vlastnosti. Na základě poznání vlastností výběrového souboru se usuzuje na vlastnosti celé populace („statistická indukce“ – vyvozování závěrů), proto by měl být výběrový soubor co nejlepším představitelem (reprezentantem) základního souboru. Aby byl výběrový soubor dostatečně reprezentativní, je nutno provádět výběr členů do tohoto souboru náhodně.

Náhodný výběr

znamená, že jedinci tohoto výběrového souboru (prakticky naměřené hodnoty) byly vybrány nezávisle tak, aby všichni jedinci základního souboru (hodnoty, které jsou teoreticky k dispozici) měly stejnou možnost být do výběru zahrnuty. Absolutně náhodný výběr ze základního souboru do výběrového souboru neexistuje. Náhodnost výběru je vždy ovlivněna určitou chybou při vybírání. K vybírání se proto používají způsoby, které chybu při vybírání zmenšují co nejvíce. Nejlépe se náhodnosti dosáhne při výběru s použitím tabulky náhodných čísel (viz Tabulky: Náhodná čísla).

Tabulka náhodných čísel obsahuje číslice 0 až 9 seřazené náhodným způsobem, tj. nezávisle za sebou. Tabulky náhodných čísel bývají sestaveny pomocí nějakého znáhodňovacího procesu, který produkuje všechny číslice se stejnou pravděpodobností a nezávisle na předchozích výsledcích. Jsou to např. losování z osudí aj. Každá tabulka náhodných čísel se po jejím sestavení podrobuje řadě zkoušek, zda neobsahuje nějaké nenáhodnosti, jako je například příliš častý výskyt některé číslice, (tabulky náhodných čísel mají obsahovat všechny číslice zhruba stejně krát), cyklické opakování některých čísel apod. Ani po těchto kontrolách nemusí být tabulky bezvadné, neboť náhodnost mohla být porušena jiným (nekontrolovatelným) způsobem. Univerzální test náhodnosti, který by prozkoumal náhodnost z hlediska všech jejich vlastností, neexistuje. Tabulky náhodných čísel se používají v případě, kdy je třeba dosáhnout náhodného seřazení a nebo, v případě, kdy je třeba zabezpečit náhodnost vybírání.

Náhodné výběr ze základního souboru získáme za pomoci tabulek náhodných čísel  např. takto: všechny hodnoty základního souboru, které jsou pro výběr k dispozici, se po řadě očíslují (0 až poslední hodnota základního souboru). Do výběrového souboru se vezme zvolený počet "n" (např. n = 5) hodnot ze základního souboru, a to těch, jejichž čísla se shodují s posloupností prvých "n" náhodných čísel připadajících v úvahu počínaje od libovolného místa tabulky náhodných čísel.

 

Zpět