Testování hypotéz ve statistice
Z hlediska praktického využití statistických metod v oblasti vyhodnocování experimentálních dat v biologickém a medicínském výzkumu představuje testování statistických hypotéz jednu z nejdůležitějších součástí biostatistiky vůbec. Statistickou analýzou výběrových dat získaných sledováním měřené náhodné veličiny v experimentu jsme schopni rozhodnout o platnosti určitého obecného tvrzení (statistické hypotézy) na úrovni celé populace.
Experiment je prováděn na sledovaných jednotkách (živých jedincích), které experimentátor řadí do různých skupin (výběrových souborů) podle použité pokusné intervence. Nejčastějším typem experimentu je tzv. komparativní experiment, kdy badatel pracuje minimálně se dvěma skupinami – tzv. kontrolní a pokusnou skupinou. Kontrolní skupina obvykle sestává z jedinců, kteří nejsou vystaveni pokusné intervenci, jejíž účinky jsou studovány. Skupina vystavená zkoumanému typu pokusného zásahu se nazývá experimentální (pokusná) skupina. Experimenty je možno provádět i s několika ošetřenými skupinami, přičemž v některých případech nemusíme mít kontrolní skupinu bez intervence, ale všechny skupiny jsou ošetřeny nějakým způsobem. Cílem statistické analýzy experimentálních dat je pak zjištění a kvantitativní specifikace rozdílů mezi jednotlivými skupinami prostřednictvím statistických metod pro vzájemné porovnání výběrových souborů zúčastněných v experimentu.
Testování statistických hypotéz patří spolu s metodami teorie odhadu k nejdůležitějším postupům statistického usuzování (statistické indukce). Úlohou statistické indukce je rozhodnout na základě informací získaných z náhodných výběrů, zda přijmeme nebo zamítneme určitou hypotézu týkající se základního souboru. Statistickou hypotézou rozumíme jakékoliv tvrzení, které se může týkat neznámých parametrů, daných funkcí parametrů, ale také tvaru rozdělení a dalších vlastností základního souboru. Statistickou hypotézou může být např. tvrzení:
- daný náhodný výběr pochází z normálního rozdělení
- 2 náhodné výběry pocházejí ze stejného rozdělení
- 2 náhodné výběry jsou z rozdělení, která mají stejnou střední hodnotu, rozptyl, apod.
Rozhodovací pravidlo, kterým přiřadíme rozhodnutí o platnosti či neplatnosti hypotézy, se nazývá statistický test. Pokud se statistické hypotézy týkají neznámých parametrů a při provádění testů hypotéz vycházíme ze známého rozdělení sledované náhodné veličiny v základním souboru (nejčastěji Gaussovo normální rozdělení), hovoříme obvykle o parametrických testech. Jestliže se statistické hypotézy týkají obecných vlastností základního souboru a příslušný test nevyžaduje znalost typu rozdělení v základním souboru, hovoříme o neparametrických testech.
Prvním krokem při statistickém testování je vždy formulace statistické hypotézy, tzn. formulace výzkumné otázky v rámci experimentu do formy nulové a alternativní statistické hypotézy, které klademe při testování proti sobě:
1) nulová hypotéza (označená H0) – tvrzení, které obvykle vyjadřuje „žádný neboli nulový rozdíl“ mezi testovanými soubory dat. Nulová hypotéza může být např.: m = konst., , , apod.
2) alternativní hypotéza (označená H1) - popírá platnost nulové hypotézy H0. Obvykle se vyjadřuje jako „existence diference“ mezi soubory nebo „existence závislosti“ mezi proměnnými. Jde o logický opak nulové hypotézy, tzn. např.: m ¹ konst., m1 ¹ m2 nebo s1 ¹ s2. (tzv. oboustranná alternativní hypotéza, která tvrdí, že existuje jakýkoliv rozdíl, tzn. rozdíl směrem k větším i menším hodnotám). Někdy však můžeme mít důvod pracovat i s tzv. jednostrannou alternativní hypotézou, která tvrdí, že např. druhá populace má střední hodnotu vyšší (nebo naopak nižší).
Pokud při statistickém testování nedokážeme opak, předpokládáme, že platí nulová hypotéza.
Např.: Máme v experimentu 2 skupiny zvířat, jednu pokusnou (P) a druhou kontrolní (K). U pokusné skupiny sledujeme např. působení léku na onemocnění, jímž jsou postiženy stejně obě skupiny. Kdybychom lék nepoužili, měly by výsledky měření v obou skupinách být zhruba stejné (v průměru). V tomto případě bychom tvrdili, že obě skupiny zvířat patří do téhož základního souboru, a že rozdíl mezi nimi je nulový (platí tedy nulová hypotéza o shodě středních hodnot obou souborů - H0: ).
Dostaneme-li v experimentu u ošetřené skupiny výsledky výrazně odlišné (v průměru) oproti skupině kontrolní (neošetřené), pak nulovou hypotézu zamítáme a přijmeme alternativní hypotézu - že skupina P patří do jiného základního souboru než skupina K, tzn., že účinek zkoumaného léku je prokazatelný. V případě, že výsledky se prakticky nebudou lišit (budou se vyskytovat jen náhodné rozdíly, způsobené variabilitou biologického materiálu), přijmeme H0, tzn. prohlásíme lék za neúčinný.
Druhý krok při testování statistických hypotéz spočívá v určení hladiny významnosti testu (chyba α zvolená experimentátotem), což je pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí.
Je třeba si uvědomit, že testovanou hypotézu vždy přijímáme nebo zamítáme na základě výsledků náhodného výběru, a proto může být zamítnutí i nezamítnutí hypotézy H0 správné, ale i nesprávné. Obecně se můžeme dopustit jedné ze 2 chyb:
- chyba 1. druhu a - zamítneme hypotézu H0, když platí
- chyba 2. druhu ß - nesprávně přijmeme hypotézu H0, když neplatí
Snahou experimentátora je samozřejmě volit test tak, aby pravděpodobnost chyb 1. a 2. druhu byla co nejmenší. Univerzální test minimalizující obě chyby však neexistuje, protože chyby spolu souvisí (čím větší je a, tím menší je b a naopak). Musíme tedy volit kompromis: zpravidla se postupuje tak, že si předem zvolíme chybu a (hladina významnosti testu) a to dostatečně nízkou – pro biologická data se používá 0,05 (příp.0,01) a tím dostaneme 95% (99%) jistotu správného rozhodnutí. Chybu b nemáme možnost ovlivnit, je dána velikostí zvolené chyby a.
Pravděpodobnost 1-ß je definována také jako „síla testu“ nebo "rozlišovací schopnost" testu. Představuje pravděpodobnost, že správně zamítneme nulovou hypotézu H0, když neplatí. Síla testu závisí na předem zvolené hladině významnosti testu (chyba a ) a to tak, že s klesající hladinou významnosti síla testu klesá.
Chybu 1. druhu a a chybu 2. druhu ß při testování statistických hypotéz přehledně sumarizuje následující tabulka:
Chyby a a ß při testování hypotéz
ROZHODNUTÍ
SKUTEČNOST |
ZAMÍTÁME H0 |
NEZAMÍTÁME H0 |
H0 PLATÍ |
Chyba I.druhu a |
SPRÁVNĚ 1- a |
H0 NEPLATÍ |
SPRÁVNĚ 1- b (síla testu) |
Chyba II.druhu b |
Prakticky při testování statistických hypotéz postupujeme tak, že předem zvolíme dostatečně nízkou pravděpodobnost chyby 1. druhu α (hladinu významnosti) a tím zároveň určíme i velikost chyby 2. druhu b, protože obě chyby spolu navzájem souvisí. Vzájemný vztah mezi chybou 1. druhu α a chybou 2. druhu b v závislosti na předem zvolené hladině významnosti znázorňuje následující obrázek:
Po určení hladiny významnosti je následujícím krokem při testování statistických hypotéz výpočet testovacího kritéria (testovací statistiky), na jehož základě provádíme rozhodnutí o platnosti (neplatnosti) nulové hypotézy. Existuje mnoho testovacích statistik, výpočet závisí na povaze dat a testované hypotéze. Testovací kritéria se řídí různými typy rozdělení (podle toho, jakou hypotézu testujeme). Jako testovací kritérium mohou sloužit např. veličiny:
t (Studentův t-test pro testování rozdílu 2 středních hodnot)
F (F-test pro testování rozdílu 2 rozptylů)
c2 (c2test pro testování rozdílu četností souborů)
Obor hodnot testovacího kritéria rozdělujeme při testování hypotéz na 2 části:
1) kritický obor - obor hodnot, který svědčí ve prospěch alternativní hypotézy H1 (zamítáme H0).
2) obor přijetí - padne-li vypočtená hodnota testovacího kritéria do tohoto oboru, pak testovanou nulovou hypotézu H0 nezamítneme.
Vymezení kritického oboru a oboru přijetí se provádí pomocí kritických hodnot testovacího kritéria, což jsou specifické kvantily příslušných rozdělení (např. t-rozdělení, F-rozdělení, c2-rozdělení) související se zvolenou hladinou významnosti α. Obvykle se používají kvantily 1-α/2 (příp. 1-α) příslušného rozdělení. Tyto kvantily (kritické hodnoty) pro různá rozdělení používaná jako testovací statistiky, jsou tabelovány ve statistických tabulkách a jejich hodnota závisí na zvolené chybě α a počtu stupňů volnosti n = n-1 (případě rozsahu n u neparametrických testů) výběrových souborů použitých při testování.
Příklad vymezení kritického oboru a oboru přijetí nulové hypotézy pomocí kritických hodnot u testovacího kritéria pro t-rozdělení (Studentův t-test pro testování rozdílu 2 středních hodnot) je znázorněn na následujícím obrázku:
Obor hodnot pro testovací kritérium t
t - testovací kritérium
f(t) – hustota pravděpodobnosti testovacího kritétia
α - zvolená hladina významnosti (chyba 1. druhu)
t1-α/2 – kvantil 1-α/2 t-rozdělení (kritická hodnota při testování)
Závěr testování
Poslední krok při testování statistických hypotéz představuje formulace závěru testování, které lze to provést dvěma způsoby:
1) srovnáním vypočteného testovacího kritéria s kritickou hodnotou, která se určuje v závislosti na zvolené hladině významnosti α. Jestliže hodnota vypočtené testovací statistiky překročí kritickou hodnotu, znamená to, že existuje evidence pro zamítnutí nulové hypotézy (tzn. „že jsme potvrdili rozdíl“). Naopak, pokud se vypočtená testovací statistika ocitne uvnitř oboru přijetí H0, nemůžeme zamítnout nulovou hypotézu, a tedy předpokládáme, že platí.
2) převedením testovací statistiky do pravděpodobnostní škály a počítáme pravděpodobnost p, která kvantifikuje pravděpodobnost realizace hodnoty testovací statistiky, pokud nulová hypotéza platí. Takže pravidlo pro formulaci závěru je pak následující:
* Jestliže p-hodnota je menší než hladina významnosti α (chyba α), zamítáme nulovou hypotézu H0. Symbolicky lze použít závěr:
p < 0,05 „statisticky významný rozdíl“ nebo
p < 0,01 „statisticky vysoce významný rozdíl“
* Jestliže je p-hodnota větší než hladina významnosti α (chyba α), nulovou hypotézu H0 nemůžeme zamítnout a tedy předpokládáme, že platí. Symbolicky lze psát:
p > 0,05 („statisticky nevýznamný rozdíl“).