Statistické znaky
V rámci biologického a medicínského výzkumu provádíme zkoumání přírodních náhodných jevů. Zpravidla však nemůžeme zkoumat jevy jako takové, ale snažíme se vybrat znak, nebo skupinu znaků, které zkoumaný jev určitým způsobem popisují – projevují se určitými biologickými vlastnostmi u sledovaných jedinců. Můžeme tedy říci, že statistický znak je odraz (označení) určité vlastnosti, kterou má v té či oné míře každý člen sledovaného souboru zkoumaných jedinců (statistického souboru).
představuje míru dané vlastnosti (statistického znaku) u každého člena souboru a může být slovní nebo číselná. Těchto hodnot je pro daný statistický znak tolik, kolik členů patří do daného souboru zkoumaných jedinců. Počet hodnot jednoho statistického znaku se tedy rovná rozsahu souboru. Každou jednotlivou hodnotu je možno nazývat také pozorováním, protože je označením stupně dané vlastnosti (vyjádřené daným znakem) pozorovaného u každého člena souboru. Počet pozorování jednoho znaku je tak samozřejmě shodný s rozsahem souboru. Záznamy o získaných hodnotách jednoho nebo více znaků v určitém statistickém souboru nazýváme statistickými údaji (daty).
Hodnoty statistického znaku ve smyslu vyjádření různého stupně sledované vlastnosti je možno nazývat obměny neboli varianty znaku. Každá jednotlivá hodnota (varianta) znaku je označována jako xi (hodnota naměřená u i-tého jedince v souboru). Daný statistický znak může nabýt buď pouze jedné varianty, nebo častěji dvou či více variant. Takový znak, který nabývá v daném statistickém souboru pouze jedné varianty, se nazývá shodný (např. znak „příslušnost ke sledovanému souboru pacientů“ nebo „příslušnost k danému chovu dojnic“). Obvykle statistické znaky nabývají více než jedné obměny. Např. znak „pohlaví“ nabývá dvou variant (samčí, samičí nebo mužské, ženské), znak „věk v letech“ nebo „tělesná hmotnost“ může nabývat mnoha různých obměn u sledovaných jedinců. Tyto statistické znaky, které nabývají v daném statistickém souboru více než jedné varianty, jsou proměnnými (variabilními) statistickými znaky. Stručně je nazýváme proměnné.
Klasifikace proměnných
Proměnné (statistické znaky) lze klasifikovat podle velmi mnoha hledisek. Jako první se nabízí hledisko vyjádření hodnot proměnné slovy nebo určitými čísly. Podle něj členíme proměnné na slovní a číselné. Slovní proměnné se někdy nazývají alfabetické, ale nejčastěji kategoriální (roztříděním členů statistického souboru podle takovéto proměnné vznikají totiž skupiny neboli kategorie). Číselné proměnné se jmenují numerické. Ve značné části odborné literatury (a také při praktickém využití) se kategoriální proměnné nazývají kvalitativními znaky a numerické proměnné bývají nazývány kvantitativními znaky.
Na klasifikaci proměnných (statistických znaků) na slovní a číselné úzce navazuje třídění podle hlediska typu vztahů mezi obměnami a hodnotami proměnných. Pomocí hodnot, kterých proměnná (statistický znak) nabývá, je možno kvantifikovat sledovanou vlastnost jedinců statistického souboru.
Podle stupně kvantifikace rozeznáváme čtyři typy statistických znaků podle toho, zda jsme u dvou hodnot znaků x1 a x2 schopni interpretovat jejich:
rovnost x1 = x2
uspořádání x1 < x2
rozdíl x1 - x2
podíl x1 / x2
Na základě tohoto hlediska tedy dostaneme následující skupiny znaků:
1. znaky nominální (od latinského slova nomen ve smyslu jméno, název, pojmenování) – znaky s nejnižším stupněm kvantifikace. Můžeme u nich interpretovat jen rovnost, případně nerovnost (znak je přítomen u daného jedince nebo není přítomen). Nominální znaky nabývají buď jen dvou možností projevu (alternativní nominální znaky – např. stav organismu: zdravý – nemocný, pohlaví: samčí - samičí) nebo více možností projevu (množné nominální znaky – barva očí: modrá – hnědá – šedá – zelená). Různé možnosti projevu nominálních znaků jsou často nazývány kategoriemi a pro nominální znaky se proto někdy používá také pojem kategoriální data.
2. znaky ordinální (od latinského slova ordatio ve smyslu pořadí) neboli pořadové znaky jsou ty, o jejichž obměnách lze nejen říci, že jsou různé, ale lze je jednoznačně seřadit od nejmenší varianty do největší (nebo naopak). Hodnoty těchto znaků tak vyjadřují vzestupné nebo sestupné uspořádání intenzity zkoumané vlastnosti a jsou určeny subjektivně hodnotitelem. Typickým příkladem je školní klasifikace nebo hodnocení pomocí bodů v různých soutěžích (degustace, bonitace apod.). Při klasifikaci určíme, že jedničkář je lepší než dvojkař, ale to neznamená, že je mezi nimi stejný výkonostní rozdíl jako mezi dvojkařem a trojkařem.
3. znaky metrické neboli kardinální (od latinského slova cardinalis, které má významy stěžejní, hlavní) jsou znaky s nejvyšším stupněm kvantifikace. Jsou to znaky, o jejichž dvou variantách lze říci nejen, že jsou různé (jako u nominálních znaků) a že je jedna z nich větší než druhá (jako u ordinálních znaků), ale lze i přesně změřit o kolik je jedna obměna větší než druhá. Kardinální znaky jsou vždy číselné - jsou interpretovány číselnou hodnotou naměřenou objektivním měřítkem. Metrickými neboli kardinálními znaky jsou např. tělesná hmotnost, objem plic, délka končetiny, koncentrace látky, aktivita enzymu, tělesná teplota apod.).
Kardinální znaky můžeme dále dělit na:
a) - intervalové znaky: jsme u nich schopni interpretovat rozdíl dvou hodnot. Stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti.
b) - poměrové znaky: mimo rozdílu jsme schopni interpretovat i podíl 2 hodnot.
Podle typu znaků bychom také měli používat odpovídajících statistických metod. Základní pravidlo pro použití statistických metod je následující:
Data znaků na vyšším stupni kvantifikace lze zpracovat metodami určenými pro nižší stupeň kvantifikace, ovšem za cenu ztráty informace. Opačný postup možný není, protože hrozí zanášením libovůle do konečných výsledků.
Podle tohoto pravidla je tedy možno použít metody primárně určené pro znaky s nižším stupněm kvantifikace v některých situacích i pro znaky s vyšším stupněm kvantifikace, ovšem za cenu ztráty informace z dat (např. pro orientační hodnocení).
Podle formálního hlediska je možno dále rozlišit statistické znaky na:
1. znaky nespojité (diskrétní) – takové znaky, které nabývají jen určitých hodnot z nějakého reálného intervalu. Např.: počet mláďat ve vrhu, počet snesených vajec, počet nemocných v určitém období nebo lokalitě atd. (může být 1 jedinec, 4 jedinci, ale ne 1,5 jedince). Speciálním případem diskrétních znaků jsou znaky alternativní, nabývající pouze 2 hodnot: ano - ne, zdravý - nemocný, přežije - nepřežije.
2. znaky spojité – teoreticky mohou nabývat všech hodnot v rámci určitého reálného intervalu (tělesná hmotnost, výška, teplota, aktivita enzymu). Prakticky nemusí být „spojitost“ těchto znaků doslovná – „přesnost“ jejich hodnot závisí na měřítku použitém pro měření těchto znaků (např. hmotnost dojnic budeme měřit s přesností maximálně celých kg, nemá smysl měřit v menších jednotkách).