Könnyû példákat sorolni arra, hogy az élet dolgaiban milyen súlyos tévedések történhetnek, ha nem követeljük meg érveléseinkben a kiinduló pont(ok) valósságát. Hasonló a helyzet a matematikai gondolatmenetekben, így számos biometriában használatos módszer esetében is. Valószínûleg a helyzet meg nem értésébõl ered az a néha megfigyelhetõ gyakorlat, hogy a kiindulási feltételek súlyos megsértések mellett próbálnak statisztikai eljárásokat alkalmazni. Ez azért is hiba, mert vannak kevés feltételezésen alapuló eljárások is.
Számos olyan eljárás, amely a folytonos intervallum skálákon mérhetõ valószínûségi változók tulajdonságain alapul, az adatoknak egy adott tipusú (leggyakrabban a normális) eloszláshoz való illeszkedését tételezi fel.
Tekintsük át újra a ->>[mérési skálákra] vonatkozó ismereteinket! Az intervallum vagy a hányados skálán végzett méréseknél az adatokból számolhatunk átlagot, szórásnégyzetet, szórást. Fontos módszerek alapulnak ezeknek a 'származtatott paramétereknek' a matematikai, logikai tulajdonságain; ezeket a módszereket ->>[paraméteres módszereknek] nevezik.
Könnyû belátni, hogy például a ->>[nominális skálán] mért adatok esetében nem helyénvaló átlagot számítani, és - következésképpen - nem alkalmazhatók a paraméteres statisztikai módszerek. Példáúl, ha egy mintában csak fekete és szõke hajú egyének vannak, akkor a mintára vonatkozóan nem lehet átlagos (pl. barna) hajszínrõl beszélni.
A nominális és az ordinális skálán mért adatokkal számos módszer alkalmazható, melyek egyik közös tulajdonsága, hogy nem kell hozzájuk az, hogy az adatokból átlag, vagy szórás számolható legyen. Általában mondható, hogy ezek a módszerek nem az ismert nevezetes eloszlás, a ->>[normális eloszlás] paramétereinek tulajdonságain alapulnak, ezért is szokás õket ->>[nem-paraméteres módszereknek] nevezni.
Közös tulajdonságuk ezeknek a módszereknek, hogy nem tételezik fel azt sem, hogy az adatok egy adott populáció egy specifikus eloszlásához illeszkednek, szemben a paraméteres módszerekkel, melyek esetében fontos elõfeltétel, hogy eloszlásuk a módszerben feltételezett tulajdonságokkal rendelkezzen. Ezért szokták ezeket a módszereket összevontan ->>[eloszlás-mentes módszereknek] is nevezni.
A nem paraméteres módszerek az alábbi esetek közül valamelyikre vonatkoznak.
1. Nominális skálán mért adatokon elvégezhetõ.
2. Ordinális (rendezett) skálán mért adatokon elvégezhetõ.
3. Intervallum skálán mért adatokon anélkül végezhetõ el, hogy azt kellene feltételeznünk, hogy az adatok egy adott tulajdonságokkal rendelkezõ eloszlásból származnak. Ebben az esetben az adatokat ->>[rangtranszformációnak] vetjük alá. Ez azt jelenti, hogy az intervallum skálán tett megfigyeléseket az ordinális skálán értékeljük ki.
Az elõjel próbának nincs (elterjedt, ismert) megfelelõje a paraméteres próbák között, bár egyes esetekben az [egymintás t próba] egyszerûsítve visszavezethetõ az elõjel próba esetére, bár ilyen esetekben - ha lehet - a [Wilcoxon-féle elõjeles rangszám próba] alkalmazandó.
Könnyen észrevehetõ hogy az elõjel próbával értékelhetõ adatok esete lényegében véve azonos a pénzfeldobási kísérlet kimenetélének vizsgálata esetével, amelyet a [binomiális eloszlás] írt le.
Lehetnek olyan esetek, amikor nem lehet egyértelmûen eldönteni az elõjelet. Ezekben az eldöntetlen esetekben a megfigyelést nem vesszük figyelembe egyikfajta elõjelek számlálása során sem. Ez [triviális] megközelítés, mégis érdemes kimondanunk.
A binomiális eloszlás tulajdonságaiból kiszámították és táblázatba foglalták minden szóbajövõ n-re az egyik elõjel minden elõfordulásának valószínûségét. A táblázat használatára ->>[példa]:
Egy másik példa az elõjel próba használatára, amikor egy megfigyelés sorozat mediánját, nem pedig az átlagát kivánjuk egy ismert értékhez (ami lehet nulla, vagy egy jól megalapozott referencia érték) hasonlítani. Elvégezzük a méréseket, rögzítjük az adatokat, majd meghatározzuk, hogy a referencia érték alatt, vagy felett helyezkednek el az egyes mérési adatok. Az elõjeleket megszámoljuk, és az elõjel próbát az ismert módon alkalmazzuk.
NEFA koncentráció
aequ/l NE elôtt |
NEFA koncentráció
aequ/l NE után |
Különbség | Rang szám | Elô jeles rang szám |
780 | 1182 | 402 | 4 | 4 |
784 | 680 | -104 | 1 | -1 |
1077 | 1488 | 411 | 5 | 5 |
780 | 1195 | 415 | 6 | 6 |
945 | 1340 | 395 | 3 | 3 |
1114 | 1448 | 334 | 2 | 2 |
Ez a próba olyan kísérleti helyzetekben alkalmazható, ahol a mintavétel a páros megfigyelésen alapul, ahol 2 összefüggõ változóból mintavétel történik, úgy, hogy mindegyikbõl egy-egy jut egy megfigyelési egységbe. Az ilyen kisérleti elrendezésbõl eredõ adatok kiértékelésére a paraméteres próbák közül az ->>[egymintás t próba] alkalmazható, ha annak feltételei teljesülnek (intervallum skálán mérhetõ adatok, melyek különbségeinek eloszlása normális).
Ha a feltételek nem teljesülnek, példáúl, mert a mérés skálája ordinális, vagy a különbségek eloszlása ferde, akkor alkalmazható a Wilcoxon féle elõjeles rang próba.
Ha a t próba feltételei nem teljesülnek, akkor a Wilcoxon-féle elõjeles rang ->>[próba ereje] nagyobb, mint a t próbáé. Tehát ez a próba minden szempontból jobb, ha nem alkalmazható az egymintás t próba.
A próba feltételei: Ordinális skálán mérhetõ folytonos valószínûségi változó (Erõsen asszimmetrikus eloszlás esetén nem alkalmazható).
A kísérleti elrendezés: Valamilyen szempontból párosított megfigyeléseket végzünk úgy, hogy a párok egyes tagjai között a különbség csak a kezelésben legyen. Ez a randomizált blokk elrendezés legegyszerübb esete.
A próba esetében az alábbi két hipotézis között kell választanunk:
**H0: a két populáció eloszlása azonos (Null hipotézis)
**H1: a két populáció eloszlása nem azonos (Alternatív hipotézis)
A gondolatmenet a következõ: A mérések különbségeit (elõjelüktõl átmenetileg eltekintve) rangsorba állítjuk, és a különbségek helyébe azok rangsorát (rangszámát) írjuk, majd a rangszámokat ellátjuk az eredeti különbségek elõjelével. Ha a két minta azonos populációból származik, akkor az elõjeles rangok összegének várható értéke 0. Wilcoxon kimutatta, hogy n>=10 esetében a rangok mintaeloszlásának szigma szórása n ismeretében kiszámolható, képlete: **négyzetgyök{(n+1)(2n+1)/6}, és az eloszlás megközelítõen normális. Ennek alapján elvégezhetõ a z transzformáció, és a standard normális eloszlás tulajdonságait (táblázatát) felhasználva kiszámíthatjuk annak valószínûségét, hogy a megfigyelt átlagolt elõjeles rangszámérték elõfordul a H0 mellett.
Egy másik gondolatmenet szerint az eredeti adatokat rangokká transzformáljuk, majd a rangszámokkal végezzük el az egy mintás t próbát. Ez egy közelítõ eljárás, és mint ilyen, elvileg és gyakorlatilag is elfogadható. Ez az eljárás nem egyszerûbb, mint az elôjeles rangpróba, azért a t próbával közelítést nem ajánljuk.
Régebben ez a módszer nem volt népszerû, valószínûleg a számolási nehézkesség, vagy a szükséges táblázatok hiánya miatt, ma azonban a próba elvégzésére szinte minden statisztikai programcsomagban találunk lehetõséget. A legegyszerûbb csomag a GraphPad cég Instat nevû DOS alatt futó programja. Egy ->>[példa] a program kimenetével.
A nem paraméteres próbák a kérdést másképpen teszik fel, és a próbák elvégzése után kapott válaszok értelmezése sem azonos. erre még a próbák tárgyalása után visszatérünk.
|
1. csoport
|
|
2. csoport
|
|
1.
csoport
|
|
2.
csoport
|
|
1.
csoport
|
|
2.
csoport
|
|
1.
csoport
|
|
2.
csoport
|
#
|
Kontroll
|
#
|
Teszto
szteron
|
#
|
foly-
tatás
|
#
|
foly-
tatás
|
#
|
foly-
tatás
|
#
|
foly-
tatás
|
#
|
foly-
tatás
|
#
|
foly-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ábra scatter
Rangtranszformáció
Az eljárásnak több neve van, és a több név alatt lényegében ugyanazon eljárásról van szó (Mann-Whitney U test, , vagy Mann-Whitney-Wilcoxon rank-sum test).
Ezen eljárás a null hipotézise szerint a két mediánja egyenlõ, nem az átlagok egyenlõségét vizsgálja, mint a két mintás t teszt. Az alternatív hipotézis szerint a két minta mediánja nem egyenlõ.
Feltétlek: Független minták, folytonos valószínûségi változók esetében használható.
Kísérleti elrendezés: Kettô független, véletlen (random) minta.
Hipotézisek:
H0: A két minta eloszlása nem különbözik
H1: A két minta eloszlása különbözik.
Számitása nehézkes volt, amig a statisztikai programcsomagok nem voltak hozzáférhetõk.
A gondolatmenet a következõ: Az összes adatot (a csoporthoz
való tartozástól függetlenül) nagysága
szerint sorba állítjuk, az adatok helyébe azok rangszámát
helyettesítjük.
->>[rangtranszformáció]. Ha két, vagy több
azonos adatot találunk, akkor azok helyébe az átlagos
rangszámokat írjuk. Az így kapott rangszámokat
az eredeti csoportokra bontjuk. Ez a transzformáció az eredeti
megfigyeléseket az ordinális skálán fejezi
ki.
Ha a két csoport középértéke között nincs különbség ( azaz H0 teljesül), akkor mind a két csoportban lesznek alacsony és magas rangszámú megfigyelések, és az átlagos rangszám értékek is közel azonosak lesznek.
Ha H0 -t elvetjük, akkor az egyik csoportban nagy valószínûséggel nagyobb lesz az átlagos rangszám, mint a másik csoportban.
Ez az eljárás hatékonyabb, mint a t próba, ha a t próba feltételei nem teljesülnek. Ha pl. az adatok eloszlása ferde, nem csak elvileg helytelen a t próbát felhasználni, hanem a hibásan használt t próba téves következtetésekre is vezethet.
Egy ->>[példa] megoldásának illusztrációja az INSTAT nevû egyszerû program segítségével.
A medián teszt gondolatmenete egyszerû. A két csoport összes adatának mediánját könnyû meghatározni. Ha a két csoport között nincs különbség (azaz H0 teljesül), akkor a közös medián alatt és felett nagyjából hasonló arányban oszlanak meg a megfigyelések. A megoszlásokat egy 2x2-es táblában foglalhatjuk össze, és máris visszavezettük a kérdés megoldását a ->>[Khi-négyzet próbára], vagy a ->>[Fisher féle exakt tesztre].
A nem-paraméteres próba viszonylagos ereje nagyobb, mint a (korrektül nem alkalmazható) paraméteres próba ereje.
Nem csak az átlag különbségeit tudjuk vizsgálni, hanem az eloszlás más tulajdonságának (példáúl ferdeség fellépése kezelés hatására) változását is.
A paraméteres próbák esetében a null hipotézisek gyakran többet mondanak, mint a nem-paraméteres próbák null hipotézisei.
Ha csak az a kérdésünk, hogy két csoport között van-e bármilyen különbség, akkor bármelyik próbát alkalmazhatjuk. Tudnunk kell azonban, hogy a nem-paraméteres próbák, ellentétben a t próbával, nem a két csoport átlagának a különbségét vizsgálják, hanem a csoportok más tulajdonságait, mégpedig próbánként különbözõ tulajdonságait. Igy aztán a szignifikáns különbség nem biztosan jelenti azt, hogy a két csoport átlaga (várható értéke) is különbözik, mert lehet, hogy a két vizsgált populáció eloszlásának valamilyen más tulajdonsága különbözik, nem a várható értékük.
Ha az a gyanúnk, hogy a mediánok különböznek, akkor a Mann-Whitney próbát válasszuk, ha viszont az a gyanúnk, hogy a beavatkozásunk az eloszlás jellegét (is) megváltoztatja, akkor a Kolmogorov-Smirnov próba elõnyösebb.
A megfelelõ próba kiválasztásának lépései:
A skála
legalább |
Egy minta | Párositott minta | Két független minta |
Ordinális | Elôjel próba | Elôjel próba
Wilcoxon elôjeles rang próba |
Mann-Whitney-Wilcoxon próba |
Nominális | - | McNemar teszt | Fisher 2x2 tábla |