A valószínűségelmélet, mint a statisztikai következtetés alapja

Bevezetés

Salk 1953-ra fejezte be a poliomyelitis elleni vakcina kifejlesztését és a hatékonyság tesztelésére az évszázad legnagyobb kísérlete zajlott az ezt követő években. Az oltóanyagot iskolás gyermekeken próbálták ki, a gyermekek egy része a kezelési, a másik a kontroll csoportot alkotta, összesen közel 2 millió kísérleti személyt vontak be a vizsgálatba.

A betegség előfordulási aránya (incidencia) a kontroll csoportban 0.057-nek, a beoltott csoportban 0.016-nak adódott. A vizsgálat célja természetesen az volt, hogy az eredményekből az egész népességre vonatkozó következtetést lehessen levonni. Elegendő alapot nyújt-e a tapasztalt különbség ahhoz a következtetéshez, hogy az oltóanyag széles körben bevezethető ? A különbség az oltóanyagnak köszönhető-e, vagy lehetséges, hogy a véletlen ingadozás megnyilvánulása ? Tekintettel arra hogy, az 1947 és 1952 közötti években a polio megbetegedések számának változékonysága jelentős, 10000 főtől 60000 főig terjedt, a kísérlet idején tapasztalt csökkenés adódhatott "véletlenül" is.

A biológiai és orvosi kutatás azt a célját, hogy általános megállapításokra jusson a populációval (pl. a fentiekben a poliomyelitis által fenyegetett korosztály) illetve annak valamely paraméterével (a betegség incideciája) kapcsolatban, csak a statisztika tudományának segítségével érheti el. A problémát a kísérlet kimenetelének véletlen változékonysága jelenti. Arra a kérdésre, hogy egy új gyógyszer hatásos-e, azaz a kontroll illetve a kezelt csoport valamely jellemzőjének különbsége valódi, elfogadható-e, a kísérlet megismétlésével szisztematikusan megjelenik-e, a statisztikai következtetés adja meg a választ. A kísérlet kimenetelét befolyásoló nem szisztematikus faktorok hatásaként az észlelt differencia kísérletről kísérletre változik. A statisztikai következtetés szabályos, logikailag tiszta, egyértelmű eljárást nyújt a valószínűségelméletre alapozott induktív gondolkodás módszerével a tudományos kérdések eldöntéséhez.

Ebben a fejezetben a statisztikai metodológia alapjául szolgáló valószínűségelmélet illetve ennek alapfogalma, a valószínűség kerül tárgyalásra. Előbb azonban a következő egyszerű reprezentatív példa bemutatja a valószínűség fogalmára alapozott statisztikai eljárások lépéseit és ezzel bepillantást nyújt a tananyag további fejezeteiben részletezendő ismeretekbe és ezzel a biometria alapvető fogalmaiba. A példa a statisztikai következtetés két típusát, a becslést illetve a hipotézisvizsgálatot illusztrálja.

Egy példa

A probléma: egy új arthritis elleni gyógyszer hatásos-e a betegség kezelésében ?
1. lépés

Nullhipotézis felállítása: a gyógyszer és a placebo hatása nem különbözik.

2. lépés

Kísérlet tervezése a hipotézis tesztelésére: a teljes populációból (pl. magyar népesség) 99 kísérleti személyt (minta) véletlenszerűen kiválasztva és két csoportba osztva, 52 fő illetve 47 fő gyógyszert illetve placebot kap. Egyéb körülményeket tekintve a két csoportot azonosan kezeljük. A kezelés végén a gyógyulás tényét objektív kritériumok alapján állapítjuk meg.

3. lépés

Adatok gyűjtése és tabellázása, amely a következő eredménnyel járt:

  gyógyult nem gyógyult összesen
gyógyszer 46 6 52
placebo 32 15 47
összesen 78 21 99

Ha a gyógyszer hatásos, a gyógyulási aránynak magasabbnak kell lennie a gyógyszerre, mint a placebora, ami teljesül, mivel 46/52 (=0.8846) > 32/47 (=0.6809). A fő kérdés az, vajon ez a magasabb gyógyulási arány valóban a szer hatásosságának a következménye-e, vagy a véletlen "működésének" eredménye?

4.lépés

Statisztika definiálása, vagyis az adatokból jól megválasztott függvénnyel újabb érték számítása. Ebben az illusztratív problémában a kontingenciatáblába rendezett adatokból c2 értéket, azaz a kísérletben adódott illetve az elméletileg "elvárható" arányok eltérésének mértékét számítjuk. Az elméletileg elvárható, azaz a teljes populációra vonatkozó arány becslése a valószínűség fogalma alapján történik. Pl. a nem gyógyult placebo esetek valószínűsége d=21* 47/99 = 9.97, szemben a tapasztalati értékkel (15). A 3 lépésben felvetett kérdésre a c2 értékek valószínűségeloszlásának, a mintaeloszlásnak az ismeretében válaszolhatunk. A mintaeloszlás pontosan megadja minden c2 értéktartományhoz annak valószínűségét. Előzetesen még a szignifikancia szint (a) megválasztása szükséges, azaz annak a valószínűség értéknek a lerögzítése, amelynél kisebb valószínűségű eseményt nem tartunk véletlennek, ez lehet pl. a=0.05. Ha a mintából kapott c2=6.13 érték valószínűsége (=0.0133) kisebb a szignifikancia szintnél, ezt az eseményt (ennek a c2 értéknek az előfordulását) nem tartjuk véletlen eseménynek. Indirekt következtetéssel ezt az eseményt szisztematikus hatás eredményének tekinthetjük, tehát a gyógyszer hatásának. Ezek után meghozhatjuk döntésünket a nullhipotézisről: a fentiek alátámasztják annak elvetését, tehát a gyógyszert hatásosnak tekinthetjük.

A valószínűség fogalma

A valószínűségelmélet kialakulása

A valószínűszínűségelmélet gyökerei a matematikának a szerencsejátékokban történő alkalmazásáig nyúlnak vissza. A szerencsejátékok törvényszerűségeinek megfigyeléséből vált nyilvánvalóvá, hogy az események egymáshoz viszonyított (relatív) gyakoriságai nagy számú kísérlet esetén stabilitást mutatnak. A nyerési esélyek kiszámítása azt az empírikus alapon nyugvó definíciót sugallta, hogy egy esemény valószínűségének az esemény bekövetkezésének relatív gyakoriságát nevezzük. Pl. 52 lapos kártyacsomagból piros ász kiválasztásának valószínűsége 1/52, ha feltételezzük, hogy egyenlő eséllyel választhatjuk bármely lapot. (A valószínűségnek ez a most említett definíciója korlátozott érvényű - mint az alábbiakban részletesen kitérünk rá - csak az ún. klasszikus valószínűségi mező esetén érvényes.) A valószínűség elméletének tudományos megalapozása két 17. századi matematikus, Pascal és Fermat nevéhez fűződik. A valószínűségelmélet kiteljesedése matematikailag egzakt, axiomatikus felépítésű diszciplinává Kolmogorov (1933) munkásságának eredménye.

A véletlen folyamatok sajátosságai

A valószínűségelmélet a véletlen folyamatoknak azon alapvető sajátosságát ragadja meg, hogy egyetlen véletlen esemény kimenetele sem jósolható meg, de több esemény bekövetkezése pontosan előre kiszámítható. A népességből egyetlen embert kiválasztva semmit sem mondhatunk előre testmagasságának vagy vérnyomásának nagyságáról, de az egész népesség testmagasságának valószínűségeloszlása ismert, és ennek alapján adott határok közötti egyének aránya pontosan megadható. Ezért a valószínűség fogalma az összekötő láncszem a populáció és a minta között. Egyúttal annak pontos, kvantitatív jellemzése, mit tudunk és mit nem tudunk: Fisher (1956) szerint tudatlanságunk precíz specifikációja.

A valószínűség fogalmát a történeti fejlődést követve előbb a szerencsejátékokból eredő módszerrel a klasszikus (a), majd a matematikailag egzakt módon (axiómákkal) az általános (Kolmogorov-féle) valószínűségi mezőre (b) definiáljuk.

Az esemény fogalma, az eseményalgebra alapfogalmai

A valószínűségelmélet alapvető, definiálatlan alapfogalma az esemény. Az esemény a statisztikai kísérlet lehetséges kimeneteleinek egyike. Ha a kísérlet a népességből véletlenszerűen kiválasztott egyén AB0 vércsoport kategóriák szerinti besorolása, akkor ennek a kísérletnek négy lehetséges kimenetele van (négy különböző esemény következhet be): hogy a kísérleti személy A, B, AB vagy 0 vércsoportú. Az elemi esemény egyike azoknak a lehetőségeknek, amelyekben végződhet a kísérlet (az előző példa vércsoport osztályaiba tartozás). Összetett esemény elemi eseményekből áll, pl. az az esemény, hogy a vizsgált személy nem 0 vércsoportú, mert ez az A, B, AB kimeneteleket foglalja magába. Az összes elemi esemény együttesen az eseményteret (jele többnyire W) alkotja. Az összetett esemény fogalma rávilágít arra, hogy az esemény halmaz, az eseménytér részhalmaza. Klasszikus valószínűségi mezőről beszélünk, ha az eseménytér véges, és az elemi események valószínűségei megegyeznek (azonos eséllyel következnek be). Kolmogorov-féle ( végtelen) valószínűségi mezőről van szó, ha az eseménytér végtelen. Pl. testmagasság mérésnél a kísérlet lehetséges kimenetele az az esemény, hogy a méréskor kapott érték egy (kontinuum sok számot tartalmazó) intervallum valamelyik számával egyenlő. Az eseményeken végrehajtható műveletek szabályait, az eseményalgebrát az arthritis elleni szer kipróbálására vonatkozó bevezető kísérlet alapján definiáljuk. Az események valószínűségére vonatkozó szabályok, a valószínűségi törvények ismertetése a valószínűség fogalmának tisztázása után következik.

Felidézve a kísérlet eredményét:

  gyógyult nem gyógyult összesen
gyógyszer 46 6 52
placebo 32 15 47
összesen 78 21 99

Nevezzük A eseménynek a kísérlet "gyógyulás" kimenetelét (78 fő). Ekkor az A kiegészítő, vagy komplementer eseménye a "nem gyógyulás" (99-78=21 fő), azaz a "nem A" (nem A) esemény. Ez a két esemény kölcsönösen kizárja egymást, azaz az egyik esemény bekövetkeztével egyidőben a másik nem fordulhat elő. Szintén kizáró eseményeket reprezentál az, ha a páciens kezelésként gyógyszert (nevezzük B eseménynek) vagy placebot kap (nem B, azaz "nem B" esemény). Több esemény is lehet (páronként) kölcsönösen kizáró, pl. vércsoport meghatározásánál az A, B, AB, 0 vércsoportba tartozás eseménye. Ha az egymást kizáró események együtt az egész eseményteret kitöltik, az eseményeket együtt teljes eseményrendszernek nevezzük. (Például a gyógyulás illetve a nem gyógyulás kimenetel együtt teljes eseményrendszert alkotnak). A biztos esemény olyan esemény, amely a kísérlet elvégzésekor minden alkalommal bekövetkezik, tulajdonképpen azonos az eseménytérrel. A lehetetlen esemény egyetlen kísérlet végrehajtásnál sem következik be, ez az üres eseményhalmaz (például .

Mivel az események halmazok, ez utóbbiak szemléltetésében bevált Venn-diagramokkal az események közötti kapcsolatok is megjeleníthetőek. (ÁBRA).

A valószínűség definíciója

A kísérlet több azonos feltételek között történő független, ismételt végrehajtásból áll, minden egyes megismétlése egy-egy kimenetelt valósít meg. Ha azt kérdezzük, hogy mi a valószínűsége egy eseménynek, azt várjuk, hogy a válasz egy szám, amely a kérdéses eseményhez van rendelve. A valószínűség tehát egy függvény, amelynek értelmezési tartományát események, értékkészletét számok alkotják.

a) A valószínűség "klasszikus" definíciója

Ha egy A esemény a kísérlet N számú, egymástól független végrehajtása során n-szer következik be, azaz a "kedvező esetek" száma n, az "összes esetek" száma N, akkor az A esemény p(A) valószínűségének a következő (0 és 1 közötti) számot nevezzük:

p(A) = lim "kedvező" lehetőségek (esetek) száma / összes lehetőség (eset) száma = lim (n / N)

képlet

Klasszikus valószínűségi mezőt alkotnak pl. a kockadobás, érmedobás, vagy a Mendel-féle hibridkeresztezéses kísérlet kimenetelei a különböző fenotípusokra nézve.

A Mendel-féle kísérletben a borsómag alakját egy domináns A allél (gömbölyű alak) és egy recesszív a allél (szögletes alak), a színét hasonlóan egy domináns-recesszív, B-b allélpár (sárga-zöld szín) határozza meg. A kísérlet az AB, Ab, aB, ab genotípussal rendelkező apai és ugyanilyen genotípussal rendelkező anyai gaméták véletlenszerű párosításából áll. A kísérlet kimenetelei az apai és anyai gaméták genotípusaiból alkotott rendezett párok, ezek alkotják a teljes eseményteret, amely így 16 elemi eseményből áll. Tekintsük azt az eseményt, hogy az utód fenotípusát figyeljük meg. Mekkora a valószínűsége zöld, gömbölyű borsómag létrejöttének (nevezzük E2 eseménynek) ? Kedvező események a következő genotípus-párokkal rendelkező növények létrejötte: (Ab,Ab), (Ab,ab), (ab,Ab), az összes esetek száma 16. Ezért az E esemény valószínűsége, p(E2) = 3 / 16. A szóba jöhető (összetett) események: a mag

E1: sárga gömbölyű, E2: zöld gömbölyű, E3: sárga szögletes, E4: zöld szögletes. A megfelelő valószínűségek: p(E1) = 9/16, p(E2) = 3/16, p(E3) = 3/16, p(E4) = 1/16.

A valószínűség alapján tudományos következtetésre nyílik lehetőség pl. a következő módon:

ha a biológiai kísérlet, a hibridkeresztezés elvégzése a 9 : 3 : 3 : 1 arányt mutatja, a jelenség a Mendeli öröklődésmenet szabályai szerint zajlik.

Az események valószínűségét rendszerint nem ismerjük, ezért a populációból vett minta segítségével becsüljük. Pl. ha 100 emberből B vércsoportúnak adódik 12, a relatív gyakoriság (a valószínűség becslése) 12/100. A valószínűség 0.11, azaz a népesség 11%-a B vércsoportú, ezért nagyobb minta választása esetén a 11/100-hoz közelebbi arány gyakrabban fordul elő. E definíció korlátai a példából is szembetűnnek: mekkora nagy legyen a minta mérete, hányszor végezzük el a kísérletet ? A valószínűséget ezért korrekt módon mindkét (a klasszikus és a Kolmogorov-féle) mezőre is a b) definició határozza meg.

b) A valószínűség definiálása axiómáival

A valószínűség olyan függvény, amely az W eseménytér minden részhalmazához (az eseményekhez) egy 0 és 1 közötti számot rendel hozzá (1), úgy, hogy a biztos eseményhez (W) az 1-et rendeli (2), és véges vagy végtelen sok, páronként kizáró esemény egyesítéséhez pedig az egyes események valószínűségeinek összegét (3).

Formálisan: a valószínűség az a függvény, amely az A eseményhez azt a p(A) számot rendeli hozzá, amely teljesíti a következő axiómákat:

1) 0 <= p(A) <= 1

2) p(W) = 1

3) ha Ai egymást páronként kizáró események, akkor

p(S Ak) = S p(Ak)