Lineární korelační závislost
Lineární regresní funkce představuje jednu z nejčastěji používaných funkcí, kterou používáme pro popis a hodnocení korelačních vztahů mezi dvěma náhodnými veličinami v oblasti biostatistiky. Postup hodnocení lineární korelační závislosti obvykle sestává z několika následujících kroků:
1) Konstrukce tzv. empirické křivky, která popisuje sledovaný korelační vztah na úrovni výběrového souboru, na kterém bylo provedeno měření obou veličin. Tato křivka slouží jako odhad skutečné závislosti (lineární regresní funkce), která je předpokládána pro celý základní soubor. Data pro sestrojení empirické křivky získáme tak, že pro stejnou hodnotu nezávislé proměnné xi zjistíme měřením několik náhodných hodnot závislé proměnné yi . Jako příklad můžeme uvést měření tělesné výšky a váhy u náhodného výběru n osob, kdy měřením každého jedince získáme dvě hodnoty (výšku a váhu), tedy n korelačních dvojic (xi, yi). Pak vypočteme aritmetické průměry z hodnot yi odpovídajících téže hodnotě xi a tyto průměry propojíme křivkou, kterou nazýváme empirická.
Empirická křivka pro korelační vztah:
2) Sestrojení teoretické přímky, tj. přímky, proložené bodovým diagramem tak, že se co nejvíce blíží všem bodům – představuje tedy nejbližší regresní funkci. Tato lineární regresní funkce je pak používána pro popis skutečné závislosti sledovaných veličin na úrovni celého základního souboru.
Pro určení nejvhodnější lineární regresní funkce je nutno vypočítat odhady regresních koeficientů k a q dané rovnice pro teoretickou přímku:
Koeficienty k a q určují svojí hodnotou vlastnosti dané přímky (sklon a posun):
k (směrnice přímky, sklon) = tg α (úhel, který svírá přímka s osou x)
q (posun přímky) – určuje průsečík přímky s osou y
Regresní koeficienty k a q vypočtené z dat výběrového souboru jsou pouze odhadem přesných koeficientů teoretické regresní funkce, která jednoznačně popisuje skutečnou závislost sledovaných veličin na úrovni celé populace.
Obrázky a) a b) znázorňují vlastnosti přímky, které jsou určeny koeficienty k a q v rovnici lineární regresní funkce.
a) Regresní koeficient k určuje sklon přímky:
x
y
Kladná hodnota koeficientu k indikuje přímou lineární závislost mezi proměnnými X a Y - přímka bude stoupající. Záporná hodnota koeficientu k indikuje nepřímou lineární závislost mezi proměnnými X a Y - přímka bude klesající.
b) Regresní koeficient q určuje průsečík přímky s osou y:
x
y
V případě kladné hodnoty koeficientu q protíná přímka osu y nad počátkem souřadnicových os, v případě záporné hodnoty koeficientu q protíná přímka osu y pod počátkem souřadnicových os.
Regresní analýza představuje statistickou metodu, která je používána pro výpočet odhadů koeficientů lineární regresní funkce: . Vycházíme z dat v podobě uspořádaných dvojic číselných údajů pro proměnné X a Y - korelačních dvojic (xi, yi), naměřených u výběrového souboru o rozsahu n členů. Regresní koeficienty lineární regresní funkce odhadujeme metodou nejmenších čtverců. Název je odvozen z postupu, který minimalizuje sečtené čtverce vertikálních vzdáleností datových bodů v bodovém diagramu od proložené teoretické přímky.
Regresní koeficient k pro lineární regresní funkci vypočteme vztahem:
Regresní koeficient q pro lineární regresní funkci vypočteme vztahem:
Po výpočtu regresních koeficientů lineární funkce, je nutno určit souřadnice dvou bodů, aby bylo možno sestrojit teoretickou regresní přímku. Zvolíme libovolnou hodnotu x1 a vypočteme pomocí známé regresní rovnice odpovídající hodnotu závislé proměnné: y1 = k . x1+ q. Podobně zvolíme libovolnou jinou hodnotu x2 a vypočteme pomocí rovnice odpovídající hodnotu y2 = k . x2+ q .
Sestrojení teoretické regresní přímky:
Tato metoda je používána pro zjištění těsnosti závislosti (síly vztahu) dvou náhodných spojitých proměnných. V nejobecnějším smyslu, slovo „korelace“ označuje míru stupně asociace dvou veličin. Dvě veličiny jsou korelované (asociované), jestliže určité hodnoty jedné veličiny mají tendenci se vyskytovat společně s určitými hodnotami druhé veličiny. Jde tu tedy o dvoustranný reciproční vztah dvou náhodných proměnných X a Y, kdy nemá smysl uvažovat, že jedna z proměnných je závislá a druhá nezávislá; obě jsou závislé vzájemně. Je to např. vzájemný vztah mezi délkou předních a zadních končetin, vztah mezi délkou křídla a délkou ocasu u ptáků nebo vztah mezi hladinou glukózy a kortikosteronu v krevním séru.
Míra asociace dvou náhodných proměnných může sahat od neexistence korelace (všechny hodnoty proměnné Y se vyskytují stejně pravděpodobně s každou hodnotou proměnné X) až po absolutní korelaci (s danou hodnotou proměnné X, se vyskytuje právě jedna hodnota proměnné Y). Pro kvantitativní vyjádření těsnosti vztahu dvou korelovaných veličin byla navržena řada koeficientů, které se liší podle typů proměnných, pro které se používají. Pro korelaci mezi dvěma spojitými náhodnými proměnnými X a Y je nejdůležitější a nejčastěji používanou mírou síly vztahu Pearsonův korelační koeficient „r“. Počítáme jej z „n“ párových hodnot - korelačních dvojic (xi, yi) naměřených na „n“ jedincích náhodně vybraných z populace. Protože při výpočtu využíváme odchylek jednotlivých hodnot xi, yi od průměrů obou veličin , je někdy pro tento koeficient používán termín „parametrický korelační koeficient“. Podmínkou použití Pearsonova korelačního koeficientu je přitom normální rozdělení obou náhodných proměnných X a Y (tzv. dvounormální rozdělení).
Výpočet korelačního koeficientu r pro lineární korelační závislost:
Korelační koeficient r může nabývat hodnot v intervalu á-1 ; +1ñ. Čím větší je absolutní hodnota r, tím těsnější je korelace mezi oběma proměnnými. Kladný korelační koeficient vyjadřuje pozitivní korelaci mezi veličinami, záporný korelační koeficient vyjadřuje negativní korelaci obou veličin. Pokud je hodnota korelačního koeficientu rovna nule, korelační závislost mezi veličinami neexistuje. Korelační koeficient r = +1 vyjadřuje úplnou (lineární) přímou závislost veličin, korelační koeficient r = -1 označuje úplnou (lineární) nepřímou závislost veličin.
Bodové diagramy pro korelaci s různou hodnotou “r”:
y y y
x x x
Neexistující korelace Přímá (pozitivní) korelace Nepřímá (negativní) korelace
r = 0 r > 0 r < 0
Testování významnosti korelačního koeficientu
Korelační koeficient „r“, který počítáme z dat korelačních dvojic naměřených u výběrového souboru představuje pouze odhad skutečného korelačního koeficientu označovaného jako „r“, který předpokládáme v celé populaci. Pokud tedy chceme přesně vědět, zda korelační vztah v populaci opravdu existuje, je nutno výběrový korelační koeficient „r“, jako každý výběrový parametr, testovat.
Za předpokladu, že náhodný výběr, ze kterého je korelační koeficient počítán, má dvounormální rozdělení, lze významnost korelačního koeficientu r testovat pomocí t-testu, kdy testujeme nulovou hypotézu o nezávislosti (H0 : r = 0).
Testovací statistiku pro t-test vypočteme podle vztahu:
kde:
r = výběrový korelační koeficient
sr = střední chyba korelačního koeficientu, vypočtená podle vztahu:
Vypočtené testovací kritérium t porovnáme s tabulovanou kritickou hodnotou t (viz Tabulky: Kvantily t1-α/2 (n) Studentova t-rozdělení ) pro zvolenou hladinu významnosti a a dané stupně volnosti v = n-2 :
Je-li t > t1-a/2(n) => zamítáme hypotézu nezávislosti sledovaných veličin (korelační koeficient r je významný na hladině a)
Je-li t < t1-a/2(n) => nemůžeme zamítnout hypotézu nezávislosti sledovaných veličin (korelační koeficient r je nevýznamný na hladině a).