Základní terminologie

 

 

Pojem statistika, historie statistiky

Pojem statistika je poměrně obtížné objasnit, přestože v současné době snad každý něco o statistice ví, a má tedy o ní nějakou představu. Slovem statistika se v běžné řeči často míní znázorňování číselných údajů přehlednou formou – pomocí grafů či tabulek. V této podobě se s ní nejčastěji setkáváme např. v masových médiích v souvislosti s volbami, různými anketami a průzkumy veřejného mínění nebo ve zprávách o vývoji ekonomiky.

Jindy článek v novinách hovoří o statistickém prokázání, že kouření způsobuje rakovinu. V odborném časopisu se lékaři dovídají o posledních studiích, jež dokazují statistickou hypotézu, že např. nově objevený léčivý preparát je opravdu účinný při snižování hladiny cholesterolu v krvi. Je možné závěrům studie věřit? Co to je statistický důkaz?

Ve většině definic statistiky je obsaženo, že se zabývá hromadnými jevy, tzn. takovými skutečnostmi, které se vyskytují mnohokrát a mohou se znovu opakovat. Obrovskou úlohu v procesu vznikání moderní statistiky v 19. století sehrál belgický matematik, astronom a statistik Lambert Adolphe Jacques Quételet (1796-1874). Pěstoval statistiku jako disciplínu, která má nejenom pozorovat a popisovat hromadné jevy v sociální oblasti, ale má se je i snažit vysvětlovat v tom smyslu, že má podle příkladu přírodních věd hledat mezi nimi příčinné vztahy. Quételet se zasloužil nejenom o vývoj vědecké statistiky, ale i o velké obohacení statistické praxe. V Belgii, kde byl od roku 1841 předsedou statistického úřadu, se pod jeho vedením provádělo sčítání lidu s mnoha moderními prvky. Kromě Quételeta měly velký vliv na utváření statistiky v 19. století i jiné osobnosti, jako např. Němec Karl Knies (1821-1898) se spisem „Die Statistik als selbstandige Wissenschaft“ (Statistika jako samostatná věda), vydaným v roce 1850.

S postupem času začalo docházet k popisování a analyzování hromadných jevů pomocí čísel i v oblastech přírodních a technických, zvláště pak v biologii, antropologii, meteorologii, fyzice apod. Na rozvoji statistiky ve 20. století se podílela dlouhá řada velmi významných vědců, např. Francis Galton (1822-1911), který položil základy zkoumání vztahů mezi hromadnými jevy, dále Karl Pearson (1857-1936), který zkonstruoval řadu originálních statistických měr a postupů, Ronald A. Fisher (1890-1962), který se významně zasloužil zejména o rozvoj testování statistických hypotéz a dále William S. Gosset („Student“, 1876-1937), který vyvinul neparametrickou statistiku pro situace, kdy nelze předpokládat normální rozdělení dat.

Činnost těchto vědců, jejich dalších současníků a následovníků vedla k tomu, že se na přelomu tisíciletí pod pojmem statistika rozumí nauka, jak získávat informace z numerických dat. Je to disciplína, která pomáhá při přípravě a provedení výzkumu a při vyhodnocování výsledků. Jako nástroj vědy, poskytuje statistika prostředky a koncepty, které umožňují pracovat s výsledky tak, abychom porozuměli určitému problému.

V užším slova smyslu je možno pod pojmem statistika rozumět:

a)    údaje (data) zejména číselné (ale i slovní) a jejich souhrny o hromadných jevech, které najdeme v nejrůznějších statistických publikacích, ale zvláště v různých statistických ročenkách a v přílohách statistických časopisů;

b)   činnost spočívající v získávání dat o hromadných jevech (počítání, měření, vážení a zaznamenávání), v jejich roztřiďování, shrnování, grafickém znázorňování, v konstrukci a výpočtu jejich charakteristik, ve vytváření jejich soustav a v jejich zveřejňování a zejména pak v jejich analýze;

c)    věda, která zkoumá zákonitosti (podstatné pravidelnosti) hromadných jevů, resp. souhrn vědeckých metod sběru, zpracování (třídění, shrnování a zpřehledňování) a analyzování dat (včetně vytváření závěrů a rozumných rozhodnutí na základě takového rozboru).

 

Praxi statistiky lze rozdělit na tři části: získávání dat, analýzu dat a statistické usuzování:

Získávání dat

zahrnuje metody pro sběr dat, jež zodpoví předem danou otázku (hypotézu). Základní přístupy k výběru měřených objektů, k návrhu experimentů a k validizaci instrumentů pro získávání dat jsou významným příspěvkem statistiky.

Analýza dat

představuje organizaci dat a popis dat prostřednictvím grafů, numerických souhrnů a dalších matematicky propracovaných prostředků. Někdy se této oblasti říká popisná statistika. Tento název je trochu zkreslující. Moore zdůrazňuje explorační funkci této části statistiky a její dynamickou povahu. Počítačová revoluce vrátila popisnou a explorační analýzu dat do centra statistické praxe.

Statistické usuzování (inference, indukce)

jde za sama data a usiluje o získání závěrů o širším univerzu jevů. Neprovádí jenom závěry, ale dodává k nim i zhodnocení, jak jsou tyto závěry spolehlivé. K tomu používá pravděpodobnostní pojmy. Tomuto způsobu práce s daty se říká také inferenční statistika. Metody této části patří k matematicky nejnáročnějším z celé statistiky. Význam statistického testování hypotéz nebo používání intervalů spolehlivosti je však nutné posuzovat v závislosti na oprávněnosti aplikace těchto metod, a ne podle jejich matematické složitosti.

 

Biostatistika

Termín biostatistika se používá pro statistiku, aplikovanou na zkoumání hromadných jevů v oblasti biologických a navazujících věd. Nutnost používání statistických metod v této oblasti je dána specifickými vlastnostmi a charakteristickými rysy biologického materiálu. Všechny životní procesy a projevy živých organismů jsou ve svém celku velmi složité a proměnlivé, obsahují mnoho vnitřních vzájemně působících sil a proto je jejich hodnocení často velice komplikované. Živé organismy se vyznačují značnou geneticky podmíněnou variabilitou, která působí řadu problémů při sledování, měření a získávání dat v experimentech s biologickými objekty a především při vyhodnocování těchto experimentů, intrerpretaci jejich výsledků a vyvozování závěrů. Problémy v této oblasti dokáže do určité míry vyřešit statistika, která umožní zohlednit velkou variabilitu biologického materiálu a v neposlední míře i prvek náhody, který je zde vždy přítomen a nelze ho při experimentech zcela vyloučit. Použití statistických metod je tedy při práci s biologickým materiálem vždy nezbytně nutné především při vyhodnocování výsledků získaných v experimentech a na jejich základě i a pro formulování obecně platných závěrů, které pravdivě vypovídají o sledovaných jevech.

 

Využití biostatistiky v oblasti veterinárního lékařství:

-  Vyhodnocení dat získaných v experimentech, např. při ověřování účinnosti nových léků, léčebných preparátů, medikovaných krmných směsí, ale i nových léčebných postupů a použitých metod atd. Statistické metody hodnocení jsou schopny potvrdit nebo vyvrátit hypotézy, které si v experimentech stanovíme (viz Testování statistických hypotéz).

-  Zobecnění poznatků z klinické praxe: vyhodnocování výsledků pozorování z klinické praxe – např. sledování a porovnávání výskytu onemocnění v různých skupinách zvířat, v regionech, obdobích apod. Po statistickém porovnání s nemocností v jiných skupinách (resp. v jiném regionu, v období) můžeme usoudit, zda je pozorované zvýšení nemocnosti náhodné nebo je způsobeno jinými vlivy (např. změnou krmení, metodiky ošetřování, hygienickými podmínkami, ročním obdobím, infekcí atd.)?

-  Vyhodnocení laboratorních analýz, hodnocení a porovnání vzorků (oblast hygieny potravin, testování zdravotní nezávadnosti, kontrola výroby medikovaných krmných směsí, ad.)

-  Publikování výsledků experimentálních prací v odborné a vědecké literatuře, diplomové, disertační práce, výzkumné zprávy ap.

 

 

Hromadné jevy

Cílem konání pokusů a pozorování v přírodních vědách (biologii a medicíně) je zpravidla to, abychom z výsledku pokusů nebo pozorování mohli vyslovit obecně platné závěry o zkoumaném předmětu. Proto od pokusů požadujeme reprodukovatelnost a pozorování provádíme na rozsáhlých souborech vzájemně rovnocenných objektů.

V praxi  postupujeme většinou tak, že si předem určíme nějaký pevný komplex podmínek, např. soubor pravidel pro provedení jistého pokusu (druh a kvalita zákroku, druh, stáří, váhu, pohlaví pokusných zvířat a další podmínky při biologickém experimentu) a pokusy nebo pozorování provádíme v rámci tohoto pevného komplexu podmínek. Můžeme tedy říci, že pokusy nebo jednotlivá pozorování jsou realizací předem daného pevného komplexu podmínek.

Každý proces probíhající v přírodě v daném okamžiku svého trvání se projevuje určitým výsledkem. Výsledek tohoto procesu (pokusu nebo pozorování) je označován jako jev. Soubor podmínek, za nichž proces probíhá, určuje jaký jev nastane. Jevy, které se vyskytují za určitých podmínek opakovaně ve velkém počtu (nastávají při nezávisle opakované realizaci pevného komplexu podmínek), jsou nazývány hromadnými jevy (např. hromadným jevem je chřipková epidemie v zimním období nebo výskyt určité choroby ve stáji dojnic).

 

Podle jistoty výskytu jevů lze hromadné jevy rozdělit na:

a) deterministické jevy – za určitých podmínek nastanou s naprostou jistotou (jevy jisté), nebo nenastanou (jevy nemožné). Např. při opakovaném zahřívání vody na 100°C při tlaku 101,3 kPa je výsledkem vždy pára – hromadný jev jistý, výsledek voda – hromadný jev nemožný.

b) náhodné jevy – za určitých podmínek mohou nastat, ale nemusí – hromadný jev náhodný. Náhodné jevy nelze před provedením pokusu nebo pozorování zcela přesně předvídat. Např. při chovu dojnic za určitých podmínek ve stáji je výsledkem vznik onemocnění dojnic (hromadný jev náhodný), protože výsledek je u několika dojnic onemocnění určitou chorobou, ostatní dojnice touto určitou chorobou nemocné nejsou. Tj. jev onemocnění dojnice určitou chorobou mohl nastat (a nastal, u několika dojnic choroba zjištěna byla), ale nemusel (a také nenastal, u ostatních dojnic choroba zjištěna nebyla).

 

Náhodnost jevu

je dána tím, že kromě určitého pevného komplexu podmínek, za nichž proces (pokus nebo pozorování) probíhá a směřuje k jevu, existují ještě další nepodchycené podmínky (tzv. náhodní činitelé), které se vymykají jakékoli kontrole a ovlivňují proces tak, že výsledek nelze předem jednoznačně určit. Náhodné činitele tvoří velké množství nepatrných vlivů, které obvykle podchytit nelze, které však průběh procesu ovlivňují, a tím i jeho výsledek (jev). Proto výsledky opakovaných pokusů nejsou vždy přesně stejné, i když je pevný komplex podmínek jejich provádění velmi pečlivě kontrolován.

Podobně je tomu i při konání pozorování na rozsáhlých souborech vzájemně rovnocenných jedinců. Velké množství nepatrných individiálních odchylek pozorovaných jedinců tu opět způsobuje nepředvídatelné kolísání ve výsledcích pozorování. Např. při chovu dojnic je onemocnění dojnic určitou chorobou náhodný jev, který je ovlivňován nepodchycenými podmínkami, jako je kvalita krmení, mikroklima ve stáji, úroveň ošetřování apod.

Přestože nastání nebo nenastání určitého jevu je zcela náhodné, protože je ovlivňováno náhodnými činiteli, přesto výskyt náhodných jevů podléhá určitým zákonitostem. Na základě těchto zákonitostí lze pak předvídat výskyt určitého náhodného jevu. Odhad výskytu náhodného jevu má velký význam v humánní i veterinární medicíně. Např. odhad výskytu určité nemoci v určité lokalitě nebo v určitém období, odhad projevu určité nemoci a tím i možnost jejího rozpoznání, odhad úspěšnosti léčby určité nemoci apod.

 

Jak bylo uvedeno výše, statistika se zabývá hromadnými jevy, tedy takovými skutečnosti, které se vyskytují mnohokrát a mohou se znovu opakovat. V podstatě existují dva druhy hromadných jevů:

-          hromadný jev, který je výsledkem velkého počtu opakovaných pozorování (vážení, měření) určité vlastnosti jednoho objektu. Zde je konečným cílem jednak zjištění (nebo alespoň maximální přiblížení) skutečného stavu dané vlastnosti daného objektu, jednak posouzení přesnosti pozorovatele (váhy, měřícího přístroje apod.). Může jít např. o řadu meření extinkce roztoku o určité koncentraci při kalibraci fotometru nebo řadu měření tělesné výšky jedné určité osoby apod.

-          hromadný jev (na který soustředí hlavní pozornost biostatistika) představující nějakou vlastnost určité množiny, sestávající z velkého počtu prvků (živých jedinců), z nichž každý má v nějaké míře danou vlastnost.

Protikladem hromadného jevu je individuální jev, tj. jedno pozorování vlastnosti jednoho prvku. Hranice mezi individuálním a hromadným jevem není ostrá, takže hromadný jev nelze definovat přísně exaktně. Jde o pojem velmi relativní. Lze říci, že vlastnost jednoho až čtyř prvků není možno považovat za hromadný jev. Jde pouze o jeden až čtyři individuální jevy.

Na základě zkušeností lze na druhé straně konstatovat, že uvažuje-li se 30 a více prvků, může se zpravidla mluvit již o hromadných jevech, protože při tomto a vyšším počtu lze předpokládat, že to, co je ve zkoumaných vlastnostech prvků podstatné (pravidelné, společné, zákonité), zatlačí do pozadí a převáží to, co je u některých jednotlivých prvků náhodně individuální. Zkoumání vlastností pěti až necelých třiceti prvků tvoří jakousi přechodnou oblast mezi prostým popisem skupiny individuálních jevů a poodhalováním zákonitostí hromadných jevů.

Zpět