Vylučování extrémních hodnot souboru
Někdy se při sledování biologických jevů objeví při měření na pozadí více méně stejnorodých hodnot hodnota silně odlišná – může to být vliv nějakého nového, neuvažovaného faktoru nebo chyba, způsobená např. při měření, v metodice, v přístroji apod. Takovou chybu nazáváme hrubou chybou a je nutno ji odlišit od chyby náhodné, která vzniká vlivem přirozené variability biologického materiálu. Hodnoty způsobené hrubou chybou je nutno ze souboru vyloučit. Zde je třeba si uvědomit zásadní věc: k vyloučení hodnoty ze souboru jsme oprávněni jen tehdy, je-li velmi nepravděpodobné, že tato hodnota pochází z téhož základního souboru jako ostatní hodnoty výběrového souboru. Posoudit, zda se jedná o atypickou (tj. odlehlou, extrémní) hodnotu je však možné pouze tehdy, víme-li, jaký typ rozdělení sledovaná náhodná veličina má; bez této znalosti ztrácí pojem „odlehlost“ smysl.
Na základě znalosti rozdělení daného souboru lze k objektivnímu posouzení, zda zjištěná zdánlivě odlehlá hodnota patří do souboru, použít statistických testů:
- Grubbsův test – pro testování souborů odpovídajících normálnímu rozdělení
- Dixonův test (Q test) – pro testování souborů s neznámým rozdělením (případně souborů s malým počtem měření)
1. Vylučování extrémních hodnot u souboru s normálním rozdělením
Vyloučení extrémních hodnot u souborů dat s Gaussovým normálním rozdělením lze provést orientačně nebo pomocí výpočtu testovacího kritéria a následným porovnáním s tabulkovou kritickou hodnotou (Grubbsův test).
a) Orientační vyloučení extrémních hodnot
Z výběrových dat vypočítáme aritmetický průměr a směrodatnou odchylku s ze souboru bez podezřelé hodnoty. Jestliže odchylka podezřelé hodnoty od (bez ohledu na znaménko) překračuje 3s, pak tuto hodnotu můžeme vyloučit z dalšího zpracování. Jestliže je odchylka podezřelé hodnoty od menší než 3s, pak i tuto hodnotu musíme zahrnout do výběrového souboru a dále pak počítáme nový aritmetický průměr a směrodatnou odchylku s, již s touto hodnotou. Tyto nové výběrové charakteristiky používáme pro další analýzu daného výběrového souboru.
b) Grubbsův test extrémních odchylek
Grubbsův test se používá pro objektivní vylučování extrémních hodnot na základě vypočteného testovacího kritéria u souborů dat, které odpovídají Gaussovu normálnímu rozdělení sledované náhodné veličiny.
1) Seřadíme hodnoty výběrového souboru do vzestupné variační řady.
2) Vypočteme aritmetický průměr a směrodatnou odchylku s ze všech hodnot souboru.
3) Vypočítáme testovací kritérium pro první (případně poslední n-tou) hodnotu variační řady:
4) Vypočtené testovací kritérium porovnáme s tabulkovou kritickou hodnotou pro příslušné n výběrového souboru a zvolenou α pro Grubbsův test (viz Tabulky: Kritické hodnoty Tn; α – T1; α pro Grubbsův test):
Pokud T1(n,α) > Tkrit. Þ první (případně poslední) hodnotu variační řady vyloučíme ze souboru a musíme vypočítat nový průměr a směrodatnou odchylku s již bez této extrémní hodnoty.
Pokud T1(n,α) £ Tkrit. Þ první (poslední) hodnota variační řady patří do souboru a vyloučit ji nemůžeme (není extrémní hodnotou).
2. Vylučování extrémních hodnot u souboru s neznámým rozdělením
Vyloučení extrémních hodnot u souborů dat s neznámým rozdělením lze provést pomocí výpočtu testovacího kritéria (Dixonův test).
Dixonův test extrémních odchylek
Při výpočtu testovacího kritéria se využívá variační rozpětí souboru (R = xmax-xmin). Výhodou Dixonova testu je použití i u souborů s malým počtem hodnot.
1) Vytvoříme variační řadu podle velikosti hodnot: x1, x2, x3, ………………..xn-1, xn
2) Vypočteme testovací kritérium pro 1., případně poslední (n-tou) hodnotu řady:
3) Vypočtené testovací kritérium porovnáme s tabulkovou kritickou hodnotou pro příslušné n výběrového souboru a zvolenou α pro Dixonův test (viz Tabulky: Kritické hodnoty Qn; α – Q1; α pro Dixonův test):
4) Pokud Q1(n) > Qkrit. Þ první (poslední) hodnotu variační řady vyloučíme
Pokud Q1(n) £ Qkrit. Þ první (poslední) hodnotu variační řady nemůžeme vyloučit (hodnota patří do souboru)