Popisné charakteristiky statistických souborů
Pro charakteristiku vlastností základního souboru je možno použít několik popisných statistických charakteristik (parametrů). Indikátory, udávající informaci o tom, kde se nachází střed souboru, se obecně nazývají střední hodnoty (např. aritmetický průměr, medián a další parametry uvedené níže). Další důležité indikátory udávají rozptýlení hodnot sledované veličiny kolem středu souboru. Některé statistické znaky mohou být velmi proměnlivé (variabilní) ve svých hodnotách v populaci, jiné naopak vykazují velmi úzkou koncentraci pozorovaných hodnot kolem středu celé populace. Statistické charakteristiky popisující rozptýlení hodnot v souboru se obecně nazývají míry variability (např. variační rozpětí, rozptyl, směrodatná odchylka ad.).
Popisné charakteristiky statistických souborů jako jsou střední hodnoty nebo míry variability nazýváme parametry, pokud se jedná o popis či charakteristiku základního souboru (populace). V praxi nejsme bohužel obvykle schopni obsáhnou do statistického šetření celou populaci, tak aby bylo možno přesně stanovit skutečné hodnoty těchto popisných parametrů. Proto postupujeme tak, že ze základního souboru vybereme jeden nebo několik výběrových souborů a z těchto výběrových dat vypočteme tzv. výběrové charakteristiky, a tyto pak používáme při odhadování skutečných parametrů základního souboru. Výpočtem odhadů přesných hodnot parametrů základního souboru se zabývají speciální statistické metody odhadování parametrů (viz Odhady parametrů základního souboru)
Podle zavedené statistické konvence se používají pro označování skutečných (přesných) parametrů populace řecká písmena a pro označování výběrových charakteristik (odhadů skutečných parametrů) písmena latinské abecedy.
Mezi nejčastěji používané charakteristiky středu statistického souboru patří: střední hodnota (aritmetický průměr), medián, modus, geometrický průměr. Mezi nejčastěji používané charakteristiky variability souboru patří: variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru (směrodatná chyba průměru).
Převážnou většinu hodnot sledovaného statistického znaku (především biologických vlastností) je možno v základních i výběrových souborech obvykle nalézt přibližně v místě, kde se nachází střed celého rozmezí pozorovaných hodnot. Pro vyjádření této koncentrace hodnot blízko středu souboru se používají střední hodnoty.
1. Střední hodnota (aritmetický průměr, The Arithmetic Mean, AVG - average)
(základní soubor), (výběrový soubor)
Pojem střední hodnota je obvykle používán, máme-li na mysli přesný parametr m popisující skutečný střed (průměr) základního souboru, kdežto pojem aritmetický průměr je vymezen obvykle pro průměr výběrového souboru.
Střední hodnota (aritmetický průměr) je definován jako součet všech hodnot náhodné proměnné xi dělený počtem hodnot. Vypočtený průměr pak udává, jaká stejná část z úhrnu hodnot sledované číselné proměnné připadá na jednu jednotku souboru (jednoho jedince).
Výpočet střední hodnoty (průměru) m pro základní soubor:
Střední hodnota m představuje přesný (skutečný) parametr základního souboru a její výpočet je možný pouze teoreticky, protože počet hodnot základního souboru (N) není většinou přesně znám.
Pro odhad teoretické skutečné střední hodnoty základního souboru používáme aritmetický průměr , který lze empiricky vypočítat pro výběrový soubor, s použitím konečného počtu n jedinců náhodně vybraných ze základního souboru:
Aritmetický průměr nemusí být skutečně se vyskytující obměnou dané proměnné.
Vlastnosti aritmetického průměru:
- Průměr je ovlivněn extrémními hodnotami, pokud se v souboru vyskytují (neboli: při změně kterékoli hodnoty xi se mění i průměr souboru). Extrémními hodnotami souboru rozumíme tzv. odlehlá pozorování, což bývá obvykle jedna nebo několik málo hodnot náhodné proměnné, které jsou oproti ostatním zjištěným hodnotám příliš malé nebo příliš velké. Průměr je správnou charakteristikou středu souboru pouze tehdy, je-li soubor z hlediska zkoumaného znaku dostatečně stejnorodý (odpovídá Gaussovu normálnímu rozdělení pravděpodobností). V ostatních případech, hlavně při malém rozsahu souboru, může být aritmetický průměr zkreslen případnými extrémními hodnotami souboru.
- Nahradíme-li jednotlivé hodnoty znaku jejich průměrem, součet souboru se nezmění:
Tato vlastnost vyplývá přímo z definice aritmetického průměru.
- Součet odchylek jednotlivých hodnot sledované proměnné od jejich aritmetického průměru je vždy nulový:
- Přičte-li se ke všem hodnotám (odečte-li se od všech hodnot) proměnné X libovolná kladná hodnota a, potom je i aritmetický průměr větší (menší) o tuto konstantu:
- Násobí-li se všechny hodnoty proměnné X nenulovou konstantou (g ¹ 0), potom je i aritmetický průměr znásoben touto konstantou.
Jestliže máme pro výpočet průměru k dispozici již sestavenou tabulku četností (známe rozdělení četností), můžeme počítat podle vzorce váženého aritmetického průměru, v němž jednotlivé varianty znaku násobíme jejich četnostmi výskytu. Toho lze využít především u spojitých veličin, kde pracujeme s třídami a jejich četnostmi. Pokud počet tříd označíme k, středy třídy v tomto případě představují jednotlivé hodnoty xi, které násobíme četnostmi jednotlivých tříd (fi), čímž dostaneme vážený aritmetický průměr:
Výše uvedené vlastnosti aritmetického průměru jsou zcela obecné, tzn. mají pochopitelně plnou platnost nejen pro prostý aritmetický průměr, ale i pro aritmetický průměr vážený.
Kromě aritmetického průměru, patří do skupiny průměrů, tzn. středních hodnot, které jsou funkcí všech hodnot dané proměnné a jsou tedy ovlivněny případnými extrémními hodnotami souboru, také geometrický průměr, harmonický průměr, kvadratický průměr aj. Tyto střední hodnoty jsou však jako popisné statistické charakteristiky souboru používány v mnohem menší míře a pouze ve speciálních situacích.
2. Geometrický průměr (The Geometric Mean)
(základní soubor), (výběrový soubor)
Geometrický průměr řady n kladných hodnot xi je definován jako n-tá odmocnina ze součinu všech hodnot:
Geometrický průměr má smysl všude, kde má nějaký informační smysl součin hodnot proměnné. Z praktického hlediska platí, že logaritmus geometrického průměru je roven aritmetickému průměru logaritmovaných hodnot souboru. Geometrický průměr je tedy možno využít např. v korelačním počtu (viz Hodnocení závislosti kvantitativních znaků), kdy po transformaci hodnot sledované proměnné pracujeme s logaritmy původně naměřených hodnot.
Při srovnání vypočteného geometrického průměru s aritmetickým průměrem vypočteným pro stejná data platí obecně zásada, že geometrický průměr posloupnosti nestejných kladných hodnot je menší než jejich aritmetický průměr.
3. Harmonický průměr (The Harmonic Mean)
(základní soubor), (výběrový soubor)
Harmonický průměr řady n kladných hodnot xi je definován jako počet těchto hodnot, dělený součtem převrácených hodnot:
Harmonický průměr má smysl všude, kde má nějaký informační smysl součet
převrácených hodnot proměnné. Ze vzorce pro výpočet je zřejmé, že převrácená
hodnota harmonického průměru je aritmetickým průměrem převrácených hodnot
proměnné xi.
Harmonický průměr lze využít např. v situacích, kdy je potřeba zjistit dobu nutnou průměrně ke stanovení nějakého úkonu, kdy všichni jedinci souboru provádějí dané úkony současně. Harmonický průměr pak představuje průměrnou délku času pro takový úkon.
(základní soubor), (výběrový soubor)
Medián můžeme definovat jako 50 % kvantil, což je taková hodnota variační řady uspořádané podle velikosti, která rozděluje řadu na dvě stejně velké části co do počtu hodnot tak, že hodnoty dané proměnné v jedné části jsou menší (případně rovny) než medián, v druhé pak větší než medián. Je to tedy prostřední hodnota variační řady souboru v případě lichého počtu hodnot v řadě. Při sudém rozsahu souboru existují dvě prostřední hodnoty variační řady. V tomto případě se medián definuje jako aritmetický průměr (poloviční součet) těchto dvou prostředních hodnot.
U větších souborů je možno zjistit pořadové číslo mediánu pomocí následujícího vzorce:
Pořadové číslo mediánu :
Pro praktický výpočet mediánu je tedy nutno seřadit hodnoty do variační řady podle velikosti. Medián bude pak tvořen prostředním členem v uspořádané řadě hodnot. V případě liché variační řady je mediánem celé číslo, v případě liché variační řady je mediánem necelé číslo (poloviční).
Vlastnosti mediánu:
- není přímo ovlivněn velikostí všech hodnot dané proměnné (není funkcí všech hodnot proměnné), což vyplývá z definice mediánu a jeho výpočtu. To má výhody zejména v případě, kdy se vyskytují náhodně jedna nebo několik málo mimořádně extrémních (oproti ostatním hodnotám příliš malých nebo příliš velkých) hodnot proměnné. V tomto případě je vhodné, že medián (podobně jako modus) na rozdíl od průměru, není těmito odlehlými pozorováními ovlivněn a poskytuje tak dobrou představu o objektivní poloze prostřední hodnoty a tím i o úrovni hodnot sledované proměnné.
- medián lze použít jako vhodnou charakteristiku středu souboru i v případě veličin s neznámým rozdělením (nepravidelným, vícevrcholovým apod.)
5. Modus (The Mode)
(základní soubor), (výběrový soubor)
Modus můžeme definovat jako nejčastěji se vyskytující hodnota proměnné v souboru (hodnota s největší četností). Odpovídá tedy vždy vrcholu křivky rozdělení. V tabulce rozdělení četností se modus určí jednoduše z hodnoty znaku, která má největší četnost.
V rozděleních četností, kde jsou jednotlivé hodnoty řazeny do tříd s třídními intervaly (tj. u intervalového rozdělení četností), mluvíme o modálním intervalu (třída s nejvyšší četností).
Vlastnosti modu:
- modus (podobně jako medián) není zkreslen případnými extrémními hodnotami souboru, což vyplývá z definice modu. Je patrné, že modus je konkrétní hodnota, která není přímo ovlivněna velikostí všech hodnot dané proměnné (není funkcí všech hodnot proměnné).
- lze ho použít jako vhodnou charakteristiku středu souboru i v případě veličin s neznámým rozdělením (nepravidelným, vícevrcholovým apod.)