Kvalitativní znaky

(Kategoriální data)

 

 

 

Pojmem kategoriální data označujeme tzv. nominální statistické znaky (kvalitativní znaky), u nichž nemůžeme zjistit měřitelné hodnoty, ale určujeme pouze rovnost či různost („jedinec danou kvalitu splňuje nebo ne“). Kvalitativním znakem v biostatistice může být například barva očí, typ srsti, výskyt onemocnění, úhyn zvířete v experimentu, provedení vakcinace, přítomnost anatomické anomálie aj.

Nominální statistické znaky mohou nabývat různých možností svého projevu – tyto možnosti projevu nazýváme kategorie (kvalitativní třídy). Kategorie nominálních znaků reprezentují jednotlivé varianty kvalitativního znaku. Některé kvalitativní znaky mohou nabývat buď jen dvou možností svého projevu (variant) – tyto znaky nazýváme alternativní nominální znaky (např. stav organismu: zdravý – nemocný, pohlaví: samčí – samičí, provedení vakcinace: vakcinován – nevakcinován apod.). Jiné kvalitativní znaky mohou nabývat více možností svého projevu (variant) – tyto znaky nazýváme množné nominální znaky (např.: barva očí: modrá – hnědá – šedá – zelená, typ strti: krátkostrstý – dlouhosrstý – hrubostrstý apod.).

Při sledování výskytu kvalitativního znaku u daného jedince ve statistickém souboru je pro každou kategorii sledovaného znaku možno interpretovat pouze 2 stavy:

      Náhodný jev nastane (s pravděpodobností p)

      Náhodný jev nenastane (s pravděpodobností q)

Platí přitom, že p + q = 1 ("pravděpodobnosti vyplňují celý pravděpodobnostní prostor"). Pro tyto dva stavy je často používáno symbolické vyjádření pomocí 2 „hodnot“ např.: 0-1, ano-ne, pravda-nepravda,  apod.

 

 

Binomické rozdělení četností

 

Nominální znaky se řídí zvláštním typem rozdělení četností - tzv. binomickým rozdělením četností, které je odvozeno z výpočtu pravděpodobnosti výskytu sledovaného znaku u výběrového souboru při daném počtu jedinců v souboru (n). Nejčastěji se s tímto rozdělením setkáváme např. při statistických výpočtech spojených se stanovením četnosti onemocnění v různě velkých skupinách jedinců.

Pokud provádíme sledování nějakého náhodného jevu (kvalitativního znaku) u výběrového souboru o určité velikosti (n členů), je možno zjistit, s jakou pravděpodobností (P) nastane sledovaný náhodný jev u určitého počtu (k) jedinců v tomto výběrovém souboru. 

Např.: Pokud budeme sledovat u výběrového souboru o rozsahu  n = 10 členů výskyt určitého onemocnění, které se vyskytuje v populaci s pravděpodobností  p = 0,1, bude nás zajímat otázka, jaká je pravděpodobnost P, že v tomto výběrovém souboru onemocní určitý počet k jedinců z celkového počtu n? Tyto pravděpodobnosti lze přesně vypočítat pro jednotlivé hodnoty k podle následujícího vztahu:

kde výraz

  „ n nad k“  = binomický koeficient.

Hodnotu binomického koeficientu lze pro různé dvojice n a k nalézt ve statistických tabulkách nebo ho lze vypočítat podle následujícího vztahu:

                                      

Přitom platí:          

 

Pro výše uvedená data (n = 10, p = 0,1) dostaneme výpočtem následující pravděpodobnosti P(k) pro různé hodnoty k = 0, 1, 2, ……10:

     

k (počet nemocných)                                          P(k)

  0         . p0 . q10 = 1 . 1 . 0,347   =             0,347

  1         . p1 . q9  = 10 . 0,1 . 0,387  =          0,387

  2         . p2 . q8 = 45 . 0,01 . 0,4305 =         0,194

  3        ……                                                      0,057 

  4        ……                                                      0,011

  5        ……                                                      0,001

  6        ……                                                       …..

  7        ……                                                       .….

  8        ……                                                       …..

  9         . p9 . q1  = 10. 0,000000001 . 0,9 =  0,089

10         . p10 . q0 =  1. 0,0000000001 =        0,091

 

Vypočtené pravděpodobnosti P(k) je možno prezentovat grafickým vyjádřením, které představuje binomické rozdělení. Jeho tvar je vždy specifický pro konkrétní výběrový soubor, na kterém bylo provedeno sledování a závisí na počtu členů tohoto výběrového souboru (n) a pravděpodobnosti (p) výskytu  sledovaného náhodného jevu v celé populaci, z které byl vybrán výběrový soubor.

Příklad grafického vyjádření binomického rozdělení

 

  

U malých výběrových souborů je při dané pravděpodobnosti p pro výskyt sledovaného náhodného jevu v populaci tvar binomického rozdělení asymetrický a výsledné pravděpodobnosti P(k) pro jednotlivé varianty k (počet jedinců odpovídající sledovanému jevu) v tomto výběru jsou relativně vysoké. Naopak při zvětšování počtu členů výběrového souboru a stejné pravděpodobnosti p pro výskyt sledovaného náhodného jevu v populaci, nabývá binomické rozdělení větší symetrie a výsledné pravděpodobnosti P(k) pro jednotlivé varianty k ve výběrovém souboru jsou relativně nízké.

Při srovnání dvou binomických rozdělení pro různě velké výběrové soubory (n = 4 a = 20) a stejnou pravděpodobnost výskytu sledovaného náhodného jevu v populaci (p  = 0,7), které je znázorněné na následujícím obrázku, je možno vysledovat popsané zákonitosti chování binomického rozdělení: při zvětšujícím se rozsahu výběrového souboru n dochází k tzv. „normalizaci dat“, kdy se binomické rozdělení svým tvarem přibližuje Gausovu normálnímu rozdělení. Toho je možno využívat i při výpočtech v oblasti statistiky kvalitativních znaků, kdy lze v některých případech (při vysokých počtech n) aproximovat binomické rozdělení normálním rozdělením.

 

Srovnání binomického rozdělení pro různě velké výběry (a, b)

Zpět