Charakteristiky variability (proměnlivosti souboru)

 

Statistické znaky jako číselné proměnné jsou vždy různě variabilní (proměnlivé). Malý stupeň variability znamená malou vzájemnou různost (velkou podobnost) hodnot dané proměnné, což zároveň signalizuje, že střední hodnota (průměr), medián a případně i modus jsou v tomto případě dobrými charakteristikami obecné velikosti hodnot dané proměnné v daném souboru. Naopak vysoká variabilita značí velkou vzájemnou odlišnost hodnot dané proměnné, což zároveň signalizuje, že vypočítané parametry středu souboru nejsou v tomto případě dobrými charakteristikami obecné výše hodnot dané proměnné v daném souboru.

Charakteristiky středu souboru (střední hodnoty) udávají pouze informaci o poloze statistického souboru na číselné ose, ale neudávají, jak jsou hodnoty v souboru rozptýleny  kolem středu, případně, zda existují v souboru tzv. extrémní hodnoty. Tuto informaci poskytují tzv. míry variability (charakteristiky variability), které vyjadřují rozmístění hodnot dané proměnné okolo střední hodnoty celého souboru.

 

1. Variační rozpětí (The Range)

(označení: R)

Variační rozpětí R řady n čísel můžeme definovat jako rozdíl mezi největší a nejmenší hodnotou řady (rozdíl mezi největší a nejmenší hodnotou znaku v souboru):

              R = xmax – xmin

Variační rozpětí není příliš přesnou charakteristikou variability hodnot sledované numerické proměnné, neboť je ovlivněno velikostí extrémních hodnot a zároveň neříká nic o tom, jak se chovají hodnoty uvnitř souboru.

Tento nedostatek R překonávají rozpětí kvantilů, z nichž nejpoužívanější je kvartilové rozpětí Rq:

Rq = x0,75 – x0,25

Je zřejmé, že variační rozpětí ani kvantilová rozpětí neberou při charakterizování variability v úvahu velikost všech hodnot sledované numerické proměnné, což je mnohdy pociťováno jako závažný nedostatek.

 

 

2. Rozptyl (variance, The variance)

s2 (základní soubor),  s2 (výběrový soubor)

 

Rozptyl můžeme definovat (jako přesný parametr populace) jako aritmetický průměr čtverců odchylek jednotlivých hodnot sledované proměnné xi od průměru celého souboru:

 

    (rozptyl základního souboru)

 

Pohlíží-li se na daný soubor jako na výběrový, potom mluvíme o výběrovém rozptylu s2, který slouží jako odhad skutečného rozptylu populace a jeho výpočet se poněkud liší. U výpočtu výběrového rozptylu je ve jmenovateli výraz (n-1), který označujeme jako počet stupňů volnosti výběrového souboru (blíže viz Předn.2: Odhady parametrů základního souboru). Použitím tohoto výrazu (n-1) místo prosté velikosti souboru n docílíme přesnějšího odhadu skutečné hodnoty populačního rozptylu, především při výpočtu na základě malých výběrových souborů:

 

         (rozptyl výběrového souboru)

 

Z obou výpočtů je zřejmé, že rozdíl mezi rozptylem s2 na jedné straně a výběrovým rozptylem s2 na druhé straně je při velkém rozsahu souboru (n > 30) prakticky zanedbatelný.

Při praktických výpočtech podle výše uvedeného vzorce výběrového rozptylu by byl postup příliš zdlouhavý (především u velkých výběrových souborů), proto je možno pro usnadnění použít ještě jinou variantu vzorce pro výpočet výběrového rozptylu:

 

Vlastnosti rozptylu:

-          jestliže jsou všechny hodnoty souboru stejné, potom je variabilita hodnot sledované proměnné v souboru nulová a výběrový rozptyl s2 = 0

-          velikost rozptylu se zvyšuje při zvětšující se variabilitě hodnot sledované proměnné

-          rozptyl je odvozen od součtu čtverců odchylek jednotlivých hodnot od průměru souboru, proto nemůže nikdy nebývat záporných hodnot

-          přičte-li se ke všem hodnotám (odečte-li se od všech hodnot) proměnné X libovolná kladná konstanta a, potom se rozptyl nezmění:

 

-          násobí-li se (dělí-li se) všechny hodnoty proměnné nenulovou konstantou g, potom je rozptyl znásoben (vydělen) čtvercem této konstanty:

       

 

-        rozptyl je uveden ve čtvercích měrných jednotek hodnot sledovaných číselných proměnných (vyplývá to z definice rozptylu). Např.: jestliže budou hodnoty sledované proměnné vyjádřeny v gramech, jejich rozptyl bude v g2. Jestliže hodnoty sledované proměnné budou vyjádřeny v cm2, rozptyl těchto hodnot bude vyjádřen v (cm2)2, bez ohledu na to, že takové jednotky nemají žádný fyzikální význam.

 

 

3. Směrodatná odchylka (standardní deviace, Standard Deviation - SD)

 (základní soubor),  s (výběrový soubor)

 

Směrodatná odchylka je definována jako (kladná) druhá odmocnina z rozptylu, tj.

 pro základní soubor,

případně         

 pro výběrový soubor.

 

Výpočet směrodatné odchylky pro základní soubor:

               nebo   

 

 

Výpočet směrodatné odchylky pro výběrový soubor:

          nebo   

 

Vlastnosti směrodatné odchylky:

-          směrodatná odchylka má stejné měrné jednotky jako sledovaná číselná proměnná ve statistickém souboru

-          směrodatná odchylka může nabývat vždy pouze kladných hodnot (vyplývá z definice)

 

 

4. Variační koeficient (The Coefficient of Variation)

(„relativní směrodatná odchylka“)

Variační koeficient je vhodný pro vzájemné srovnávání variability dvou nebo více souborů s podstatně odlišnou úrovní hodnot (např. variabilitu váhy kuřat v gramech a variabilitu váhy skotu v kg nebo metrických centech). V těchto případech musíme odstranit vliv obecné úrovně daných hodnot. Děláme to tak, že směrodatnou odchylku dělíme střední hodnou, od které byly počítány odchylky pro součet čtverců, obvykle tedy při praktických výpočtech aritmetickým průměrem výběrového souboru. Výsledek se obyčejně vyjadřuje v procentech (po vynásobení 100).

Variační koeficient je tedy definován pro základní soubor:

    [%]         

 

Pro výběrový soubor vypočteme prakticky variační koeficient podle vzorce:

    [%]            

 

Vlastnosti variačního koeficientu:

-          variační koeficient je relativní mírou variability a není ovlivněn absolutními hodnotami sledovaného statistického znaku

-          variační koeficient udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru

-          přičte-li se ke všem hodnotám (odečte-li se od všech hodnot) dané proměnné libovolná kladná konstanta a, potom se variační koeficient zmenší (zvětší:

resp.:

 

-          násobí-li (dělí-li) se všechny hodnoty proměnné X nenulovou konstantou g, potom se variační koeficient nezmění:

 

 

5. Střední chyba průměru (Standard Error of Mean - SE, SEM)

 (základní soubor),    (výběrový soubor)

 

Střední (směrodatná) chyba průměru patří mezi často používané relativní míry variability. Často je označována (především v zahraniční odborné literatuře) zkratkou SE (příp. SEM) – z anglického výrazu Standard Error of Mean. Střední chyba průměru neměří rozptýlenost původní náhodné proměnné, ale rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru.

 

Střední (směrodatná) chyba průměru je teoreticky definována jako směrodatná odchylka všech možných výběrových průměrů z jedné populace, vypočítaných pro výběry o rozsahu n členů. Vyjadřuje tedy kolísání výběrových průměrů kolem teoretické (skutečné) střední hodnoty m v celém základním souboru.

Střední chyba průměru závisí jednak na rozptylu základního souboru (s2), jednak na rozsahu výběrového souboru (n):

 

Protože v praxi obvykle neznáme skutečnou hodnotu rozptylu s celého základního souboru, používáme prakticky výpočet pro výběrovou střední chybu průměru podle vzorce:

 

Výběrová střední chyba průměru () může být použita jako míra přesnosti, s jakou výběrový aritmetický průměr  odhaduje skutečnou střední hodnotu m. Prakticky se používá pro výpočet intervalů spolehlivosti aritmetického průměru u výběrových souborů (blíže viz Odhady parametrů základního souboru).

 

Zpět