Testování normality

Použití většiny metod a postupů v indukční statistice je specifické pro různé typy statistických dat. Postupy statistického hodnocení se liší především podle toho, jaké znalosti máme o typu rozdělení sledované náhodné veličiny v základním souboru. Proto je nutné provést jako jeden z prvních kroků při statistickém testování tzv. test normality, tj. zjištění, zda soubor dat sledované náhodné veličiny odpovídá Gaussovu normálnímu rozdělení pravděpodobností, či nikoli (v tomto případě pak pracujeme s neznámým rozdělením).

Přesto, že většina běžně používaných statistických metod vychází z předpokladu normality dat, není test normality zdaleka běžnou statistickou metodou, jak by se dalo očekávat. Důvody k tomu jsou zřejmě dva. První spočívá v relativní pracnosti tohoto procesu, jehož výpočet bez počítače, případně programovatelné kalkulačky, je časově velmi náročný a druhý spočívá ve skutečnosti, že při dostatečně velkých souborech (n > 30) je většina testů na podmínku normality poměrně málo citlivá. Protože však některé testy splnění podmínky normality striktně vyžadují, uvedeme si alespoň jeden z použitelných testů normality - c2 test dobré shody, který je vedle testu šikmosti a špičatosti normálního rozdělení jedním z nejpoužívanějších testů normality dat.

 

Chí-kvadrát test dobré shody

Test dobré shody používáme obecně k testování shody četností (především u nominálních znaků - kategoriálních dat), ale můžeme ho použít i k otestování shody rozdělení četností u znaků kvantitativních, a to metodou porovnání distribuční funkce sledované spojité náhodné veličiny s distribuční funkcí normovaného normálního rozdělení.  

c2test  dobré shody je  založen na  posouzení rozdílu  mezi skutečnými  (empirickými) četnostmi výskytu hodnot ve výběrovém souboru a očekávanými (teoretickými) četnostmi, odpovídajícími příslušnému předpokládanému rozdělení  pravděpodobností (Gaussovu normálnímu rozdělení). c2 test rozhoduje, zda je  rozdíl mezi empirickými a teoretickými četnostmi způsoben pouze náhodně a výběrový soubor pochází z populace s normálním rozdělením, nebo je rozdíl natolik velký, že je způsoben tím, že výběrový soubor nepochází z populace odpovídající Gaussovu normálnímu rozdělení, ale z nějakého jiného neznámého rozdělení.

Za předpokladu platnosti nulové hypotézy, že testovaná náhodná veličina má normální rozdělení („nulový rozdíl od tohoto rozdělení“), má testovací statistika:

 

 

Pearsonovo rozdělení o n stupních volnosti, kde nei představuje pozorované četnosti v jednotlivých třídách výběrového souboru a noi teoretické četnosti odvozené výpočtem pomocí tabulek distribučních funkcí normovaného normálního rozdělení. Počet stupňů volnosti n =m-k-1, kde m je počet tříd výběrového souboru a k je počet počet parametrů normálního rozdělení, které neznáme, a musíme je odhadnout z výběrového souboru.

Jednotlivé kroky celého testování nejlépe objasní schéma postupu v následujícím příkladě (viz Cvičení č.5: c2test )

Příklad: Při sledování  hmotnosti králíků  máme rozhodnout, zda náhodný  výběr o 1000 kusech  odpovídá Gaussovu normálnímu rozdělení s těmito  parametry: m = 3,75 kg , s  = 0,5 kg (kterým se řídí základní soubor).

Při testu vycházíme z těchto údajů:

Výběrový soubor:  x1, x2, x3, ..... x1000  (n = 1000)

Základní soubor:  m = 3,75, s =0,5

 

1)        Zvolíme intervaly tříd sledované veličiny (di - dolní mez, hi - horní mez) , např. po 0,5 kg           

          ( i - číslo třídy)

2)        Zjistí  se absolutní četnost empirická – nei  v jednotlivých  třídách výběrového souboru.

3)        Vypočítá se absolutní četnost teoretická (očekávaná pro normální rozdělení) noi  v jednotlivých třídách následujícím postupem:

 

a)       pro hodnoty di a hi vypočítáme relativní hodnoty normované veličiny udi a  uhi :

                              

 

b)      pro  udi a uhi  se zjistí v  tabulkách hodnoty distribuční  funkceF(udi)F(uhi)

      (viz Tabulky: Distribuční funkce F(u) normovaného normálního rozdělení)

c)       pro každou třídu se zjistí teoretická pravděpodobnost jako rozdíl distribuční funkce pro horní a dolní mez dané třídy:


                                   poi = F(uhi) - F(udi)

d)      pro každou třídu se vypočítá očekávaná absolutní četnost (přepočtem na velikost sledovaného výběrového souboru):    

                                  noi = n . poi

 

4)        Vypočítá se testovací kritérium (statistika) c2 :

                                                   m – počet tříd

 

5)        Vypočítaný c2 porovnáme s tabulkovou hodnotou  c2(1-a,n)  -   kritická hodnota při zvolené hladině významnosti a (např.: 0,05) a  n = m-k-1 stupních volnosti (viz Tabulky: Kritické hodnoty rozdělení c2).

 

6)        Je-li c2 £  c2(1-a,n)  můžeme vyslovit závěr, že rozdíl mezi empirickou a teoretickou četností je statisticky nevýznamný, tzn. že byl způsoben pouze náhodnými činiteli a výběrový soubor pochází z populace s normálním rozdělením (byla potvrzena shoda s teoretickým předpokladem a sledovanou veličinu můžeme považovat za veličinu s normálním rozdělením).

Je-li c2 > c2(1-a,n) znamená to, že jsme prokázali statisticky významný rozdíl mezi empirickou a teoreticky očekávanou četností pro normální rozdělení, tj. tento rozdíl není způsoben jen náhodnými činiteli, ale byl způsoben tím, že výběrový soubor pochází z jiného rozdělení než  normálního (nebyla potvrzena shoda s teoretickým předpokladem a sledovanou veličinu nemůžeme považovat za veličinu s normálním rozdělením).

 

Zpět