Hodnocení závislosti mezi 2 kvantitativními znaky

 

 

 Hodnocením závislostí mezi více náhodnými proměnnými (statistickými znaky) u jednoho souboru se zabývá vícerozměrná statistika, v případě závislosti 2 veličin je to dvojrozměrná statistika. Dvě veličiny jsou závislé, pokud spolu jejich hodnoty navzájem určitým systematickým způsobem korespondují (odpovídají si). Např. je evidentní, že lidé s velkou tělesnou výškou mají obvykle také vyšší tělesnou hmotnost než lidé s nižším vzrůstem; proto můžeme říci, že výška a váha (tělesná hmotnost) u lidí jsou dvě závislé náhodné veličiny. Závislosti dvou náhodných veličin ve statistice řeší dvojrozměrná statistika, jejímž úkolem je popsat vhodným způsobem vzájemný vztah obou veličin a kvantifikovat ho pomocí určitých parametrů (koeficientů). Vztahy mezi náhodnými veličinami, které obvykle sledujeme v oblasti biologických a medicínských věd, nemají ryze funkčně deterministický charakter. Proto je nutné použít pro jejich analýzu statistické metody. Příslušná oblast statistiky hodnotící závislosti kvantitativních statistických znaků (spojitých veličin) se nazývá korelační a regresní analýza. Korelační analýza zkoumá vztahy proměnných pomocí různých měr závislosti, které nazýváme korelační koeficienty. Pomocí korelačních koeficientů je kvantitativně vyjádřena těsnost (síla) vzájemné závislosti obou sledovaných proměnných. Regresní analýza studuje jaký vztah existuje mezi proměnnými (lineární, kvadratický, logaritmický apod.) a jak se mění závislá proměnná Y v závislosti na změnách ji podmiňující (nezávislé) proměnné X. Jde tu tedy o jednostrannou závislost, na rozdíl od korelační analýzy, která studuje dvoustranný reciproční vztah obou náhodných proměnných.

 

Vztahy mezi proměnnými můžeme rozdělit do dvou základních skupin:

 

1) Funkční závislost

 

je typická pro vztahy mezi proměnnými v oblasti exaktních věd. Je to závislost, kdy každé číselné hodnotě jedné proměnné (xi ) odpovídá přesně jedna hodnota druhé proměnné (yi). Veličinu X považujeme za tzv. nezávislou proměnnou a veličinu Y pak za tzv. závislou proměnnou. Jejich vztah lze přesně popsat určitou rovnicí (vzorcem). Funkční závislost dvou veličin je výrazem pevného příčinného vztahu,  který není ovlivněn žádnými náhodnými činiteli, tzn. že hodnoty závislé veličiny Y jsou determinovány a mění se pouze v závislosti na změnách hodnot ji podmiňující nezávislé veličiny X.

Příkladem funkční závislosti mezi proměnnými může být např. vztah mezi poloměrem kruhu (r – nezávislá veličina) a obvodem kruhu (závislá veličina). Tento vztah můžeme vyjádřit pomocí známé rovnice y = 2p r. U závislostí je vždy vhodné provést i grafickou interpretaci. Vynesením dat obou proměnných do souřadnicového systému získáme tzv. XY graf dané závislosti. Pro výše uvedený příklad funkční závislosti mezi poloměrem kruhu a jeho obvodem (lineární závislost) bychom dostali graf přímky.

Graf lineární závislosti y = 2πr.

Popis: obr15

 

 

Dalším příkladem funkční závislosti mezi proměnnými mohou být různé typy závislostí nelineárních, kam patří např. závislost:

 

- kvadratická ("parabolická"), popsaná rovnicí: 

-   hyperbolická ("hyperbolická") popsaná rovnicí: 

 

-   logaritmická, popsaná rovnicí:  y = log x

 

-   exponenciální, popsaná rovnicí: y = ax

 

 

 

Druhou skupinu závislostí mezi dvěma proměnnými tvoří:

 

2) Statistická (korelační) závislost

 

je typická pro vztahy mezi proměnnými (statistickými znaky) sledovanými v biologii, lékařství a dalších neexaktních vědách. Většina přírodních jevů má charakter velmi proměnlivý a nestálý, jde tu většinou o spojení celého komplexu různých příčin a účinků včetně působení náhodných vlivů, které nejsme schopni při sledování vyloučit. Z toho vyplývá i charakter závislostí mezi náhodnými veličinami v biologických a lékařských vědách - závislosti mají pouze relativní charakter a používáme pro ně pojem statistické (stochastické) či korelační závislosti. Korelační závislost představuje více méně volnou závislost, kdy vztah mezi proměnnými (přírodními jevy) je takový, že existence (změna) jedné proměnné či proměnných vyvolává existenci (změnu) jiné proměnné či proměnných jen s určitou pravděpodobností („znaky spolu korelují“). Jediné číselné hodnotě xi jedné veličiny (nezávislé proměnné) může v případě korelační závislosti odpovídat celá řada náhodných hodnot druhé veličiny yi (závislá proměnná).

Grafickým vyjádřením korelačního vztahu je tzv. bodový diagram nebo také dvojrozměrný bodový graf, který získáme vynesením dat obou náhodných veličin do souřadnicového sytému XY. Získáme tím základní představu o společném rozdělení obou proměnných. Každý bod v diagramu odpovídá jednomu páru měření, tzv. korelační dvojici (xi, yi). Příklad bodového diagramu můžeme vidět na následujícím obrázku, který znázorňuje grafické vyjádření korelačního vztahu mezi tělesnou výškou a tělesnou hmotností u lidí.

 

Bodový diagram pro korelační závislost (tělesná výška a hmotnost)

 

 

Podle charakteru rozložení bodů v bodovém diagramu můžeme odhadovat, zda je mezi proměnnými silná či spíše volnější závislost, anebo jestli jsou na sobě obě sledované veličiny evidentně nezávislé. Jsou-li body v bodovém diagramu seskupeny podél některého směru (tvoří tzv. „korelační pás“), svědčí to o přítomnosti určitého vztahu mezi sledovanými proměnnými. Korelační závislost přitom může být buď přímá („pozitivní korelace“ – obr. a) nebo nepřímá („negativní korelace“ – obr. b).

                                                                      

 

           

Pokud body v bodovém diagramu rozloženy víceméně rovnoměrně po celé ploše, je to důkazem toho, že závislost mezi oběma sledovanými proměnnými je velmi slabá, případně vůbec neexistuje. Říkáme, že veličiny spolu nekorelují, případně, že mají nulovou korelaci (obr. c).

 

              

 

Máme-li co nejvýstižněji charakterizovat a popsat korelační vztah mezi dvěma náhodnými veličinami v biostatistice, tak se snažíme zjistit, jestli se jejich statistická závislost blíží k některé funkční závislosti a pokusíme se ji určitou abstrakcí převést na funkční (provádíme odhad nejbližší funkční závislost – tzv. aproximaci). Tuto nejbližší funkční závislost pak vyjádříme rovnicí. Zjišťováním nejvýstižnější funkční závislosti, která by byla vhodná pro popis daného korelačního vztahu se zabývá regresní analýza. Úkolem je výpočet tzv. regresních koeficientů pro rovnici nejvýstižnější funkce, která se použije pro popis sledované korelační závislosti.

Podle charakteru rozložení bodů v bodovém diagramu můžeme rozlišit dva typy základních korelačních závislostí mezi dvěma náhodnými proměnnými: lineární nebo nelineární závislost - obr. a), b). Tyto dva typy korelační závislosti se liší ve svém způsobu a použité metodice statistického hodnocení (Lineární korelační závislost, Nelineární korelační závislost).

 

Lineární (a) a nelineární (b) korelační závislost

 

 

 

                                                                       

Zpět