Pojmem kategoriální data označujeme tzv. nominální statistické znaky (kvalitativní znaky), u nichž nemůžeme zjistit měřitelné hodnoty, ale určujeme pouze rovnost či různost („jedinec danou kvalitu splňuje nebo ne“). Kvalitativním znakem v biostatistice může být například barva očí, typ srsti, výskyt onemocnění, úhyn zvířete v experimentu, provedení vakcinace, přítomnost anatomické anomálie aj.
Nominální statistické znaky mohou nabývat různých možností svého projevu – tyto možnosti projevu nazýváme kategorie (kvalitativní třídy). Kategorie nominálních znaků reprezentují jednotlivé varianty kvalitativního znaku. Některé kvalitativní znaky mohou nabývat buď jen dvou možností svého projevu (variant) – tyto znaky nazýváme alternativní nominální znaky (např. stav organismu: zdravý – nemocný, pohlaví: samčí – samičí, provedení vakcinace: vakcinován – nevakcinován apod.). Jiné kvalitativní znaky mohou nabývat více možností svého projevu (variant) – tyto znaky nazýváme množné nominální znaky (např.: barva očí: modrá – hnědá – šedá – zelená, typ strti: krátkostrstý – dlouhosrstý – hrubostrstý apod.).
Při sledování výskytu kvalitativního znaku u daného jedince ve statistickém souboru je pro každou kategorii sledovaného znaku možno interpretovat pouze 2 stavy:
• Náhodný jev nastane (s pravděpodobností p)
• Náhodný jev nenastane (s pravděpodobností q)
Platí přitom, že p + q = 1 ("pravděpodobnosti vyplňují celý pravděpodobnostní prostor"). Pro tyto dva stavy je často používáno symbolické vyjádření pomocí 2 „hodnot“ např.: 0-1, ano-ne, pravda-nepravda, apod.
Nominální znaky se řídí zvláštním typem rozdělení četností - tzv. binomickým rozdělením četností, které je odvozeno z výpočtu pravděpodobnosti výskytu sledovaného znaku u výběrového souboru při daném počtu jedinců v souboru (n). Nejčastěji se s tímto rozdělením setkáváme např. při statistických výpočtech spojených se stanovením četnosti onemocnění v různě velkých skupinách jedinců.
Pokud provádíme sledování nějakého náhodného jevu (kvalitativního znaku) u výběrového souboru o určité velikosti (n členů), je možno zjistit, s jakou pravděpodobností (P) nastane sledovaný náhodný jev u určitého počtu (k) jedinců v tomto výběrovém souboru.
Např.: Pokud budeme sledovat u výběrového souboru o rozsahu n = 10 členů výskyt určitého onemocnění, které se vyskytuje v populaci s pravděpodobností p = 0,1, bude nás zajímat otázka, jaká je pravděpodobnost P, že v tomto výběrovém souboru onemocní určitý počet k jedinců z celkového počtu n? Tyto pravděpodobnosti lze přesně vypočítat pro jednotlivé hodnoty k podle následujícího vztahu:
kde výraz
„ n nad k“ = binomický koeficient.
Hodnotu binomického koeficientu lze pro různé dvojice n a k nalézt ve statistických tabulkách nebo ho lze vypočítat podle následujícího vztahu:
Přitom platí:
Pro výše uvedená data (n = 10, p = 0,1) dostaneme výpočtem následující pravděpodobnosti P(k) pro různé hodnoty k = 0, 1, 2, ……10:
k (počet nemocných) P(k)
0 . p0 . q10 = 1 . 1 . 0,347 = 0,347
1 . p1 . q9 = 10 . 0,1 . 0,387 = 0,387
2 . p2 . q8 = 45 . 0,01 . 0,4305 = 0,194
3 …… 0,057
4 …… 0,011
5 …… 0,001
6 …… …..
7 …… .….
8 …… …..
9 . p9 . q1 = 10. 0,000000001 . 0,9 = 0,089
10 . p10 . q0 = 1. 0,0000000001 = 0,091
Vypočtené pravděpodobnosti P(k) je možno prezentovat grafickým vyjádřením, které představuje binomické rozdělení. Jeho tvar je vždy specifický pro konkrétní výběrový soubor, na kterém bylo provedeno sledování a závisí na počtu členů tohoto výběrového souboru (n) a pravděpodobnosti (p) výskytu sledovaného náhodného jevu v celé populaci, z které byl vybrán výběrový soubor.
Příklad grafického vyjádření binomického rozdělení
U malých výběrových souborů je při dané pravděpodobnosti p pro výskyt sledovaného náhodného jevu v populaci tvar binomického rozdělení asymetrický a výsledné pravděpodobnosti P(k) pro jednotlivé varianty k (počet jedinců odpovídající sledovanému jevu) v tomto výběru jsou relativně vysoké. Naopak při zvětšování počtu členů výběrového souboru a stejné pravděpodobnosti p pro výskyt sledovaného náhodného jevu v populaci, nabývá binomické rozdělení větší symetrie a výsledné pravděpodobnosti P(k) pro jednotlivé varianty k ve výběrovém souboru jsou relativně nízké.
Při srovnání dvou binomických rozdělení pro různě velké výběrové soubory (n = 4 a n = 20) a stejnou pravděpodobnost výskytu sledovaného náhodného jevu v populaci (p = 0,7), které je znázorněné na následujícím obrázku, je možno vysledovat popsané zákonitosti chování binomického rozdělení: při zvětšujícím se rozsahu výběrového souboru n dochází k tzv. „normalizaci dat“, kdy se binomické rozdělení svým tvarem přibližuje Gausovu normálnímu rozdělení. Toho je možno využívat i při výpočtech v oblasti statistiky kvalitativních znaků, kdy lze v některých případech (při vysokých počtech n) aproximovat binomické rozdělení normálním rozdělením.
Srovnání binomického rozdělení pro různě velké výběry (a, b)