Analýza rozptylu (ANOVA)
(testování rozdílu více středních hodnot)
V experimentech často sledujeme účinky několika různých podmínek (faktorů), kterým jsou vystaveny různé skupiny pokusných subjektů. Podmínky působící na jednotlivé skupiny reprezentují v těchto případech různé pokusné zásahy (z nichž jeden může představovat standardní ošetření, které slouží jako kontrola). V těchto případech nás bude zajímat, zda existují rozdíly mezi jednotlivými skupinami, tzn. potřebujeme porovnat jejich průměry navzájem pro všechny možné páry.
Statistické metody, které umožňují provádět vícenásobné porovnávání středních hodnot, jsou soustředěny pod souhrnným názvem analýza rozptylu (ANOVA – Analysis of Variance). Tato metoda je založena na hodnocení vztahů mezi rozptyly porovnávaných výběrových souborů (testování shody středních hodnot se převádí na testování shody dvou rozptylů (F-test)).
Předpoklady pro validní použití metody analýzy rozptylu pro testování rozdílu více středních hodnot:
- nezávislost měření (uvnitř skupin i mezi skupinami)
- normalita dat v každé skupině
- homogenita rozptylů uvnitř skupin (alespoň přibližná shoda rozptylů uvnitř skupin)
Základním úkolem analýzy rozptylu je posouzení hlavních a interakčních účinků jednotlivých faktorů (kategoriálních nezávislých proměnných, jejichž hodnoty nazýváme úrovně faktorů) na závisle proměnnou (proměnné) kvantitativního typu.
Jednofaktorová analýza rozptylu
(analýza rozptylu jednoduchého třídění, one-way ANOVA)
představuje nejjednodušší případ analýzy rozptylu, kdy analyzujeme účinek jednoho faktoru na zkoumanou závisle proměnnou. V podstatě se jedná o zobecněnou analogii případu zjišťování rozdílu průměrů mezi dvěma nezávislými skupinami pomocí nepárového t-testu. V případě jednofaktorové analýzy rozptylu jde o zjišťování rozdílů průměrů mezi více skupinami (které reprezentují jednotlivé úrovně neboli kategorie sledovaného faktoru) prostřednictvím výpočtu testovacího kritéria F. Zjišťujeme, zda skupiny vytvořené klasifikačním faktorem jsou si podobné, nebo zda jednotlivé průměry tvoří nějaké identifikovatelné shluky (homogenní podskupiny s podobnými hodnotami). Jestliže má působící faktor jenom dvě kategorie (úrovně), úloha je totožná s testováním rovnosti průměrů ve dvou nezávislých výběrech pomocí nepárového t-testu.
Příkladem situace, která je vhodná pro statistické řešení pomocí analýzy rozptylu jednoduchého třídění může být např. krmný experiment, v němž sledujeme působení vlivu 2 různých přípravků (A a B) použitých jako aditiva do krmiva na zvyšování váhových přírůstků u kuřat. V pokusu jsou zastaveny 3 skupiny kuřat: skup. K – kontrola (standardní krmná směs), skup.A – přídavek přípravku A, skup.B – přídavek přípravku B. Sledujeme tedy jeden faktor se třemi úrovněmi (K, A, B). Po ukončení výkrmu, poražení a zvážení kuřat je u skupin A a B zjištěna zvýšená průměrná hmotnost. Máme statisticky vyhodnotit, zda zvýšený průměr hmotnosti kuřat u těchto skupin ve srovnání s kontrolou byl způsoben přidáváním přípravků A a B nebo zda se jedná pouze o náhodné zvýšení. Testujeme tedy nulovou hypotézu, že střední hodnoty všech tří skupin se rovnají a testování provádíme na základě analýzy vztahů mezi rozptyly v jednotlivých skupinách – tedy pomocí F-testu, který představuje základ výpočtů při analýze rozptylu.
Základní statistikou počítanou v analýze rozptylu je obecně testovací kritérium F, pomocí něhož se testuje hypotéza, zda průměry ve skupinách určených působícím faktorem (příp. faktory) se od sebe liší více než na základě působení přirozené variability (náhodného kolísání). Počítaná testovací statistika F zohledňuje variabilitu výběrových průměrů a zároveň přirozenou variabilitu závislé náhodné proměnné. Pro názornost si můžeme představit, že:
Celkovou variabilitu (rozptyl) sledované proměnné lze rozdělit na 2 složky:
- rozptyl „uvnitř skupin“ (rozptyl mezi jedinci ve stejné skupině kolem skupinového průměru – ten je způsoben přirozenou variabilitou (pro nás neznámou, způsobenou náhodnými vlivy)).
- rozptyl „mezi skupinami“ (tzn. rozptyl skupinových průměrů kolem společného, celkového průměru ze všech skupinových průměrů) – o něm předpokládáme, že je způsoben jednak pokusným zásahem (působícím faktorem) a jednak opět přirozenou variabilitou.
Při porovnání obou rozptylů poměrem (pomocí F-testu) pak můžeme testovat nulovou hypotézu o shodě těchto rozptylů.
Výpočet F-statistiky v analýze rozptylu můžeme zapsat v obecné formě:
Protože předpokládáme, že náhodné vlivy působí stejnou měrou mezi skupinami i uvnitř skupin, můžeme případný rozdíl v rozptylech zjištěný F-testem připsat na vrub působícího pokusného zásahu.
Vypočtené testovací kritérium F porovnáme s tabulkovou kritickou hodnotou (viz Tabulky: Kvantily F0,975 (nV, nM) Fisher-Snedecorova rozdělení) a pokud celková variabilita měřená pomocí F-statistiky překročí tuto kritickou hodnotu, zamítneme hypotézu o shodě rozptylů a tím i nulovou hypotézu analýzy rozptylu, že střední hodnoty sledovaných skupin se neliší.
Nulová hypotéza testovaná při jednoduchém třídění je:
H0: m1 = m2 = m3 = ….. = mm (kde m je počet srovnávaných skupin).
V případě zamítnutí H0 platí alternativní hypotéza H1: Ne všechny střední hodnoty jsou stejné (tj. alespoň jedna ze středních hodnoty se liší od ostatních).
Pokud analýza rozptylu zamítne globální nulovou hypotézu (H0: m1 = m2 = m3 = ….. = mm) o vlivu působícího faktoru, je nutno doplnit rozbor ještě dalšími metodami následného zkoumání existujících rozdílů. Tyto tzv. multikomparativní testy (testy pro mnohonásobné porovnávání) pak dávají výsledkem statistickou významnost jednotlivých rozdílů středních hodnot u všech možných párů porovnávaných skupin. Mezi nejčastěji používané testy pro mnohonásobné porovnání všech dvojic skupin v experimentu navzájem patří např. Tukey-test, Sheffe-test, Student-Neuman-Keuls-test (SNK test) ad. V případě, kdy jedna ze skupin v experimentu slouží jako kontrolní skupina (bez aplikace pokusného zásahu), může nám jít pouze o porovnání středních hodnot pokusných skupin vzhledem k této kontrole - pro tuto situaci je vhodný např. Dunnett-test.
Každý z testů pro mnohonásobné porovnávání má trochu jiné vlastnosti, liší se především tím, jak ošetřují při testování velikost chyby 1. druhu α (hladinu významnosti testu). Některé z testů, např. Tukey-HSD test („honestly“ significant difference test) jsou spíše konzervativní, tzn. že si udržují za dosti volných předpokladů požadovanou hladinu významnosti v celém experimentu a díky tomu, že provádějí příslušná rozhodnutí zpravidla na menší hladině významnosti, nedovolí, aby pravděpodobnost chyby α nekontrolovatelně vzrostla. Jiné testy, např. LSD test (least significant difference test) jsou spíše liberální, tzn. že je u nich velmi pravděpodobné zamítnutí nulové hypotézy o shodě porovnávaných dvojic středních hodnot (jinými slovy, můžeme u nich snadno získat statistickou významnost rozdílů testovaných dvojic středních hodnot). Je třeba si však uvědomit, že tyto výsledné významnosti mohou být někdy falešné, protože liberální testy nedostatečně upravují (tj. nesnižují) hladinu významnosti při testování rozdílů u jednotlivých dvojic skupin. Chyba 1. druhu α v celém experimentu tak může neúměrně vzrůst.
Vícefaktorová analýza rozptylu
V praxi se často setkáváme s pokusy, kdy sledujeme více působících faktorů, např. vliv krmení a plemene, vliv léku v různých stádiích onemocnění, vliv živné půdy a způsobu kultivace na růst zárodků, vliv různých druhů antibiotik a jejich dávky apod. Pokud zkoumáme vliv dvou a více faktorů působících na závisle proměnnou, hovoříme o vícefaktorové analýze rozptylu. Při tomto postupu rozlišujeme mezi hlavními efekty a efekty, které jsou způsobeny interakcemi mezi faktory při působení na závisle proměnnou. Hlavní efekt je přímý efekt faktoru na závisle proměnnou. Interakční efekt představuje spojený efekt kombinace dvou nebo více faktorů na závisle proměnnou.
Nejjednodušším případem vícefaktorové analýzy rozptylu je analýza rozptylu dvojného třídění (two-way ANOVA), při níž zkoumáme vliv dvou faktorů na závisle proměnnou. Analýzou rozptylu dvojného třídění lze hodnotit tzv. blokové experimenty, při nichž sledujeme vliv určitého faktoru (označeného např. A), který plánovitě měníme, zatímco druhý faktor (označený jako B) považujeme za rušivý vliv, který se snažíme při analýze oddělit od vlivu faktoru A. Proto se při provádění takového experimentu nejdříve sledované objekty (např. pacienti s pneumonií) rozdělí do tzv. bloků podle úrovně faktoru B (např. dávka antibiotika) a uvnitř bloku se objekty náhodně přiřadí k úrovním faktoru A (např. druh použitého antibiotika). Analýzou rozptylu pak studujeme rozdíl mezi účinkem jednotlivých druhů antibiotik podávaných v různých dávkách. Interpretace výsledků analýzy rozptylu pro dvojné třídění závisí silně na přítomností interakcí mezi faktory. Interakce představují jediný podstatný problém při zobecnění postupu analýzy rozptylu jednoduchého třídění pro použití při hodnocení působení více faktorů. Konečná interpretace výsledků anylýzy rozptylu dvojného (i vícenásobného) třídění pak spočívá ve vyhodnocení vlivu kombinací hlavních a interakčních efektů působících v experimentu.
Komplexní problematika analýzy rozptylu a podrobnější popis jednotlivých metod a postupů shrnovaných pod pojmem analýza rozptylu (včetně všech jejích variant a následných multikomparativních testů) je značně složitá a přesahuje rozsahový rámec tohoto učebního textu. Odkazujeme proto případné zájemce o detailnější studium této problematiky na další statistickou literaturu.
Modelové příklady na metodu ANOVA: Příklad 13, Příklad 14, Příklad 15, Příklad 16, Příklad 20, Příklad 23, Příklad 24, Příklad 25