Testování normality
Použití většiny metod a postupů v indukční statistice je specifické pro různé typy statistických dat. Postupy statistického hodnocení se liší především podle toho, jaké znalosti máme o typu rozdělení sledované náhodné veličiny v základním souboru. Proto je nutné provést jako jeden z prvních kroků při statistickém testování tzv. test normality, tj. zjištění, zda soubor dat sledované náhodné veličiny odpovídá Gaussovu normálnímu rozdělení pravděpodobností, či nikoli (v tomto případě pak pracujeme s neznámým rozdělením).
Přesto, že většina běžně používaných statistických metod vychází z předpokladu normality dat, není test normality zdaleka běžnou statistickou metodou, jak by se dalo očekávat. Důvody k tomu jsou zřejmě dva. První spočívá v relativní pracnosti tohoto procesu, jehož výpočet bez počítače, případně programovatelné kalkulačky, je časově velmi náročný a druhý spočívá ve skutečnosti, že při dostatečně velkých souborech (n > 30) je většina testů na podmínku normality poměrně málo citlivá. Protože však některé testy splnění podmínky normality striktně vyžadují, uvedeme si alespoň jeden z použitelných testů normality - c2 test dobré shody, který je vedle testu šikmosti a špičatosti normálního rozdělení jedním z nejpoužívanějších testů normality dat.
Test dobré shody používáme obecně k testování shody četností (především u nominálních znaků - kategoriálních dat), ale můžeme ho použít i k otestování shody rozdělení četností u znaků kvantitativních, a to metodou porovnání distribuční funkce sledované spojité náhodné veličiny s distribuční funkcí normovaného normálního rozdělení.
c2test dobré shody je založen na posouzení rozdílu mezi skutečnými (empirickými) četnostmi výskytu hodnot ve výběrovém souboru a očekávanými (teoretickými) četnostmi, odpovídajícími příslušnému předpokládanému rozdělení pravděpodobností (Gaussovu normálnímu rozdělení). c2 test rozhoduje, zda je rozdíl mezi empirickými a teoretickými četnostmi způsoben pouze náhodně a výběrový soubor pochází z populace s normálním rozdělením, nebo je rozdíl natolik velký, že je způsoben tím, že výběrový soubor nepochází z populace odpovídající Gaussovu normálnímu rozdělení, ale z nějakého jiného neznámého rozdělení.
Za předpokladu platnosti nulové hypotézy, že testovaná náhodná veličina má normální rozdělení („nulový rozdíl od tohoto rozdělení“), má testovací statistika:
Pearsonovo rozdělení o n stupních volnosti, kde nei představuje pozorované četnosti v jednotlivých třídách výběrového souboru a noi teoretické četnosti odvozené výpočtem pomocí tabulek distribučních funkcí normovaného normálního rozdělení. Počet stupňů volnosti n =m-k-1, kde m je počet tříd výběrového souboru a k je počet počet parametrů normálního rozdělení, které neznáme, a musíme je odhadnout z výběrového souboru.
Jednotlivé kroky celého testování nejlépe objasní schéma postupu v následujícím příkladě (viz Cvičení c2test )
Příklad: Při sledování hmotnosti králíků máme rozhodnout, zda náhodný výběr o 1000 kusech odpovídá Gaussovu normálnímu rozdělení s těmito parametry: m = 3,75 kg , s = 0,5 kg (kterým se řídí základní soubor).
Při testu vycházíme z těchto údajů:
Výběrový soubor: x1, x2, x3, ..... x1000 (n = 1000)
Základní soubor: m = 3,75, s =0,5
1) Zvolíme intervaly tříd sledované veličiny (di - dolní mez, hi - horní mez) , např. po 0,5 kg
( i - číslo třídy)
2) Zjistí se absolutní četnost empirická – nei v jednotlivých třídách výběrového souboru.
3) Vypočítá se absolutní četnost teoretická (očekávaná pro normální rozdělení) - noi v jednotlivých třídách následujícím postupem:
a)
pro hodnoty di
a hi
vypočítáme relativní hodnoty normované veličiny udi
a uhi :
b) pro udi a uhi se zjistí v tabulkách hodnoty distribuční funkce : F(udi), F(uhi)
(viz Tabulky: Distribuční funkce F(u) normovaného normálního rozdělení)
c) pro každou třídu se zjistí teoretická pravděpodobnost jako rozdíl distribuční funkce pro horní a dolní mez dané třídy:
poi = F(uhi) - F(udi)
d) pro každou třídu se vypočítá očekávaná absolutní četnost (přepočtem na velikost sledovaného výběrového souboru):
noi = n . poi
4) Vypočítá se testovací kritérium (statistika) c2 :
m – počet tříd
5)
Vypočítaný
c2 porovnáme s tabulkovou hodnotou
c2(1-a,n)
- kritická hodnota při zvolené
hladině významnosti
a
(např.: 0,05) a
n
= m-k-1 stupních
volnosti (viz Tabulky: Kritické hodnoty rozdělení
c2).
6) Je-li c2 £ c2(1-a,n) můžeme vyslovit závěr, že rozdíl mezi empirickou a teoretickou četností je statisticky nevýznamný, tzn. že byl způsoben pouze náhodnými činiteli a výběrový soubor pochází z populace s normálním rozdělením (byla potvrzena shoda s teoretickým předpokladem a sledovanou veličinu můžeme považovat za veličinu s normálním rozdělením).
Je-li c2 > c2(1-a,n) znamená to, že jsme prokázali statisticky významný rozdíl mezi empirickou a teoreticky očekávanou četností pro normální rozdělení, tj. tento rozdíl není způsoben jen náhodnými činiteli, ale byl způsoben tím, že výběrový soubor pochází z jiného rozdělení než normálního (nebyla potvrzena shoda s teoretickým předpokladem a sledovanou veličinu nemůžeme považovat za veličinu s normálním rozdělením).