Elsõsorban a szó és a kép dominál, nem a képlet és a formalizmus. Ez persze önmagában nem teszi könnyüvé a gondolatok megértését, az változatlanul erõfeszitést követel.
Ez az tananyag azoknak készült, akik egyetemi tanulmányaik során a statisztikai alapfogalmakat tanulják, vagy akik a tudományos kutatás módszertanával kezdenek ismerkedni. Tapasztalt orvosok, kutatók számára is hasznos lehet az alapfogalmak felfrissítésére.
Ha valami nem tetszik, vagy hibás, akkor kérjük, hogy a böngészõ program levelezõ részével azon nyomban irják meg véleményüket, és jelezzék az észlelt hiányosságot. Az ilyen visszajelzés nyomán kialakuló eszmecsere segitheti mindenki tanulását. (a leveleket az alábbiaknak cimezhetik: Makara Gábor ( makara@koki.hu ), Szilágyi Nóra ( neurocomp@ludens.elte.hu ), Tornóczi László ( torlasz@xenia.sote.hu ))
A hipertext legfõbb elõnye, hogy az ugrási lehetõségek tudatos felhasználásával a fogalmak, a példák, a párhuzamos anyagrészek közötti váltással az anyag gyorsabb és/vagy mélyebb megértéséhez lehet hozzájutni. Ahol hasznos váltásra láttunk lehetõséget, oda ugrási lehetõséget iktattunk be.
A technikai leirás a programmok leggyakoribb, standard beállitására vonatkozik. A böngészõ programokat nagyon sokféleképen lehet beállitani (konfigurálni), és a számitógép korábbi használói elállithatták a beállítást, igy az itt leirtak esetleg az adott helyzetre nem érvényesek. Ebben az esetben a számitógép gazdájától kérhetünk esetleg segitséget.
Minden olyan szövegrész, ahonnan célzottan lehet máshova átugrani, rendszerint kék színnel kiemelve jelenik meg a képernyõn (a standard beállitás esetében), és a kurzor rávitele után a képernyõ legalsó sorában megjelenik az adott elágazás számítógépes cimzése, az innen elérhetõ szövegelem lelõhelyének cime. Az ugrás után (az olvasó tetszése szerint) vissza lehet térni az ugrás elõtti pontra, vagy az új irányban lehet tovább haladni. A visszatéréshez a böngészõ program [Back] funkcióját használjuk (A Netscape böngészõ esetén ez az [Alt]+balra nyil billentyû segitségével a legegyszerübb). Az ugrás történhet egy szövegrészen belül, vagy különbözõ részek között. Az egér helyett gyakran jól használható a TAB billentyû, mely segitségével a kapcsolatok (link) között navigálhatunk elõre vagy hátra (Shift+TAB)
Miután a navigálás a legtöbb böngészõ programban kissé más megoldásokkal történik, ezért nem adunk általánosnak szánt használati utasítást, mindenki a rendelkezésére álló számítógépen, és az ott megtalálható böngészõ programmal rövid ismeretség után már olvashat, tanulhat is.
Külön ikon jelzi, ha az ugrás definicióra történik, ha az ugrás példára, vagy párhuzamos, hasonló témáju anyagrészre történik.
Ne nézzük meg elõre a kérdések után következõ magyarázatot, megoldást, az nem a tanulást, hanem az önellenõrzést szolgálja.
Valószinüleg szükség lesz egy második olvasásra is, ekkor már érdemes szabadon élni a hipertext adta lehetõségekkel.
A legfontosabb fogalmak meghatározását (definíció) fogalomjegyzékben írtuk le. A fogalomjegyzékben kikeresett fogalom legrészletesebb tárgyalását adó anyagrészhez gyakran adunk ugrási lehetõséget.
A fogalomjegyzékben adjuk meg a legfontosabb kifejezések angol megfelelõjét is. Erre mindazoknak szükségük lehet, akik angolnyelvû tudományos irodalmat olvasnak.
A Szimbólumjegyzékben adjuk meg a statisztikában és ebben a szövegben leggyakrabban használt egyezményes jelöléseket, képleteket, a görög betûk kiejtését.
Minden fontosabb eljáráshoz példákat adunk meg, és a fejezetek végén gyakorló feladatok segítik a az anyagrész megértésének önellenõrzését.
Leghasznosabb könyvek jegyzéke olyan bevezetõ jellegû könyveket sorol fel, melyeket az érdeklõdõ mélyebb matematikai ismeretek nélkül is használni tud.
Máshol elérhetõ angolnyelvû tananyagok internet cimét is felsoroljuk, de figyelemmel kell lennünk arra, hogy az internet cimek változhatnak (és gyakran változnak is) ezért ezen cimek, kapcsolatok (link) használhatóságáért nem vállalunk felelõsséget.
Statisztikai program csomagok rövid felsorolása és bemutatása során a kivonatos véleményünket írjuk meg azoknak, akik munkájuk során választhatnak abban, hogy milyen programokat használnak.
A statisztika szónak több (legalább 4) jelentése van. A többféle szóhasználat ismerete segíthet a tudományos közlemények olvasása során. A latin status (állapot, helyzet) szóból származik, és az ókori földmérõk (az állapotok, a helyzet felmérésével foglalkozó szakemberek) munkája volt az elsõ statisztikai tevékenység.
A statisztika szó jelentései:
A valószínûségszámítás tudományága olyan jelenségek törvényszerûségével foglalkozik, melyek lefolyását a számbavehetõ körülmények nem határozzák meg egyértelmûen.
A biometria és a tudományos módszertan viszonya: Az élettudományok területén, a biológiai, orvosbiológiai kutatásokban a biometriának különösen fontos szerepe van. Az élõvilág, annak minden egyede igen változékony, komplex rendszer, melynek vizsgálata során igen gyakran nehéz az egyöntetûséget biztosítani, ezért is nagy a mérések szóródása. Más szóval, a véletlen szóródás különösen jellemzõ a biológiában.
A statisztikai módszertan és gondolkodás egyre fontosabb a modern biológiában, orvostudományban és különösen a kutatásban. Rengeteg információ áll statisztikai köntösben (összefoglalva, kivonatolva, kondenzálva, statisztikai paraméterekkel jellemezve) rendelkezésünkre. A jelentések, közlemények sokasága, sõt sok szakembernek szánt hirdetés is használ (jól, vagy rosszul) statisztikából származó szakkifejezéseket. Így a szakmai információk megértéséhez és elsajátításához, kritikai értékeléséhez kell ismerni a statisztikai gondolkodásmódot. Számos döntés elõkészítéséhez további vizsgálódás kell, adatokat kell gyûjteni és elemezni, ehhez is kell a statisztikai gondolkodásmód. Tehát a statisztikát nem csak a statisztikusoknak kell ismerniük!
A statisztika számos ironikus megjegyzés tárgya. Disraeli például a következõt írta: There are three kinds of lies: lies, damned lies and statistics. E megjegyzések alapja az, hogy kevés dologgal éltek vissza annyiszor, mint a statisztikával. Sajnálatos, hogy statisztikai hiba, félrevezetõ információ néha tudományos közleményben is elõfordul.
A statisztika a valóság tükre. A tükör rosszul használva torzít. A torzítás, a félrevezetés sokféle. Ezek egy kis részére a továbbiakban még kitérünk.
Az adatgyûjtés megtervezése, és értékelése mind a gyakorlati életben mind pedig a tudományos kutatásban feltételez statisztikai ismereteket. Az adatok értékelésénél ismernünk kell azok statisztikus tulajdonságait. Ha méréseket végzünk, vagy mérési eredményeket tanulmányozunk, akkor tudnunk kell a mérések statisztikus tulajdonságairól, az értékelés korlátairól. Ha mérési adatokon alapuló leírásokat, tanulmányokat (közlemények, gyógyszerismertetõk, epidemiológiai helyzetkép) olvasunk, ismernünk kell azok alapjait, megbízhatóságuk korlátait, kritikai értékelésének lehetõségeit, a leggyakrabban elkövetett hibákat, a leselkedõ hibalehetõségeket.
A véletlennek tulajdonítható változékonyság a vizsgálatok eredményeit jelentõsen torzíthatja, ezért a változékonyság tanulmányozása az adott vizsgálat keretei között is igen fontos. Ezt szolgálják a kontroll vizsgálatok, melyben olyan egyedeket, személyeket vizsgálunk, amelyek, vagy akik a vizsgálat szempontjából viszonyítási alapként (referenciaként) szolgálhatnak, akiken gyûjtött adatokhoz hasonlíthatjuk vizsgálatunk alanyain gyûjtött adatainkat. A referencia, vagy a kontroll megfigyelések igen fontosakak a tévedések elkerüléséhez minden vizsgálódási formánál.
A vizsgálatok különféle típusainak tervezésére és kivitelezésére részletes információkat számos könyvben találunk, és a haladó biometriai oktatás során ezekkel részletesen kell foglalkozni.
A vizsgálatok csoportosítása azért fontos,
mert az adatok értéke, használhatósága
alapvetõen függ azok gyûjtésének módjától,
valamint az adatok jellegétõl, feldolgozásuk módjától.
Egységes, logikailag zárt osztályozás helyett most a megfigyelésre alapozott leggyakoribb vizsgálati típusokat soroljuk fel.
Elôfordul, hogy egy orvosi eljárást kontroll nélkül próbálnak ki, mert az eljárást végzôk meggyôzôdése szerint az adott eljárás a legjobb. Ha az eljárás sikeresnek minôsül. utána igen nehéz ugyanerre az eljárásra kontrollált vizsgálatot végezni, és meggyôzôdni arról, hogy valóban eredményes eljárásról van szó.
A vizsgálat (kísérlet) lehet nyilt, vagy ugynevezet vak, vagy kettôs vak kontrollal elvégzett. Leggyakrabban gyógyszerek kipróbálásánál alkalmazzák, és a "vak" kísérleteket akkor, ha a megfigyelésekben erôs lehet a szubjektiv elem, vagy a placebo hatás.
A biológián belül általában nagyobb a szóródás, de az egyes szakterületeken a mérhetõ adatok jellege jelentõsen különböznek. Nem csak az adatok, a kutatói szokások, a hagyományok is különbözõek lehetnek.
Az embereken végzett vizsgálatok esetében különösen
fontos, hogy minél kevesebb idõ alatt, minél kisebb
kockázattal, meghatározható pontossággal jussanak
el megbízható eredményekhez. A kutatást folytató
személyek elfogultságának hatását is
ki kell küszöbölni. Erre is a biometria ad módszert.
Az adat mindig valamilyen mérés (kísérlet, megfigyelés, vizsgálat) eredményeként keletkezik, és rendszerint szám formájában jelentkezik. A valamilyen formában rögzített megfigyelést, vagy rögzített mérést nevezzük adatnak (->>[Hajtman, 1968]).
Mérés során valamilyen skálán mérjük megfigyelésünk eredményét. A mérés pontossága, a mérési skála jellegzetességei kölcsönösen meghatározzák egymást.
Az induktív statisztika a populációra (más szóval alapsokaságra) következtet, egy vagy több minta alapján.
A minta a populáció
(sokaság) egy részhalmaza, melyet úgy kell(ene) kiválasztani,
hogy az egész populációra jellemzõ tulajdonságú
legyen.
|
|
Fontos figyelembe venni, hogy a vizsgált sokaság végtelen elemû-e (nagyon nagy számú elembõl áll-e), vagy viszonylag kisszámú elemek halmaza. A mintavétel ugyanis lehet visszatétellel, vagy visszatétel nélküli, és ez a két mintavételi eljárás statisztikai értelemben nem egyenértékû, nem felcserélhetõ.
Legtöbbször az adatgyüjtés célja, hogy az adatokból általános(abb) következtetéseket vonjunk le. ehhez az kell, hogy a vizsgálatunkban megcélzott populációból jellemzô mintát vegyünk. A minta akkor lesz jellemzô, reprezentativ, ha a minta és a populáció ismert jellemzôinek eloszlása jó megközelítéssel azonos. Sok esetben az a paradox helyzet, hogy a reprezentativ minta vételéhez többet kellene tudnunk a populációról, amelyet azért tervezünk vizsgálni, mert keveset tudni róla.
A reprezentativitás biztosításához józan ész és szakmai tudás kell, a döntés nem statisztikai, de a minta és a populáció ismert statisztikai jellemzôit fel lehet használni a minta reprezentativ voltának ellenôrzésére.
Fontos, hogy a reprezentativ minta mindig véletlenszerû kiválasztás eredménye. Ezenkivül a populációról már meglévõ ismereteinknek megfelelõ tulajdonságú. Ha tudjuk, hogy a populáció összetett részhalmazokól áll (példáúl egy ország népessége férfiakból, nõkbõl, gyermekekbõl, fiatal felnõttekbõl és idõs felnõttekbõl, stb) akkor a reprezentativ mintavétel minden ismert részhalmazra ki kell terjedjen, mindegyikbõl megfelelõ számú mintát kell venni.
Gyakori az orvosi, állatorvosi gyakorlatban, hogy a vizsgált minta nem véletlenszerûen kiválasztott, hanem példáúl egy adott helyen jelentkezett betegekkel, mint mintával foglalkoznak. (Azt is mondhatjuk, ilyenkor a minta választja ki saját magát). Ilyenkor mindig külön meg kell vizsgálni, hogy mennyiben képviseli az igy adódó minta a teljes populációt, pontosabban szólva: az adott minta valójában milyen populációt reprezentál?
A biológiai gyakorlatban a minta nem az összes létezõ egyedek populációjára vonatkozó minta, hanem sokkal szûkebb értelembe vett populációból vett minta. Az ilyen mintából levont következtetések általánositásához további populációkból vett minták vizsgálata kell.
A mintavételt több okból is elõnyben részesítik a teljes populáció vizsgálatánál.
2. feladat.
Van 60 darab kisérleti állatunk, 100 és 200 g
közötti testsúllyal. Osszuk be õket 6 olyan véletlenszerûen
kiválasztott csoportba, melyek csoportokban az átlagos testtömeg
azonos.
Számozzuk be mind a 60 kisérleti állatot. Mérjük meg õket és irjuk a testömeget a sorszám mellé. Rendezzük át a táblázatot úgy, hogy az állatok csökkenõ (vagy emelkedõ) testtömegük szerint legyenek listázva. Bontsuk a listát 10 darab hatos csoportra (ezek egymás melletti súlyúak). Mindegyik csoportból sorsoljunk ki egy-egy állatot a a 6 kisérleti csoport egyikébe. A kapott csoportok testtömegre kiegyensúlyozottak lesznek, ugyanakkor a sorsolás fogja eldönteni, hogy egy adott állat melyik csoport tagjává válik.
A sorsolást végezhetjük kocka dobással, vagy a véletlen számok táblázatával, vagy az számok véletlenszerü permutációjának táblázatával, vagy példáúl a számolótábla véletlenszám generátorával.
Az újabb számitógépes programoknak gyakran van kényelmesen használható "véletlen szám generátora", melynek segitségével elõállitható a kisérleti tervezés számára legtöbbször megfelelõ tulajdonságú véletlen szám halmaz.
Az EXCEL táblázatkezelõben az " =Rand()" függvény állit elõ véletlen számokat, a STATISTICA programcsomagban pedig az Rnd(x) vagy Uniform(x), a Normal(x), a Poisson(x) függvények. Ezek segitségével véletlen számok állithatók elõ különféle eloszlásokból, használatuk részleteirõl a Help segitségével kaphatunk részleteket.
Sajnos gyakori a kényelmi mintavétel, például, amikor minden párost az egyik csoportba, minden páratlant a másik csoportba sorolnak. Ez azért sem jó, mert ciklikus eljárás, ami szisztámás hibát okozhat. Máskor egyszerüen valamilyen természetes csoportosulást használnak fel csoportositásra. A csoportosulás azonban gyakran nem véletlenszerû, hanem rejtett tényezõk hatására jön létre, ami a vizsgálat eredményeit eltorzithatja, hibás következtetéseket eredményezhet.
Hitelesítés, nemzetközi etalonok
Az abszolut mérés, azaz a nem összehasonlító mérés is visszavezethetõ összehasonlitásra. Valójában egy nemzetközi etalonnal való összehasonlítás. A mérõmûszereket bonyolult, hatóságilag elõírt, szabványos eljárásokkal hitelesítik. A hiteles mûködést a mérést végzõnek idõrõl idõre ellenõriznie kell, a hitelességet dokumentálni kell (a szabványos eljárások, az ugynevezett Good Laboratory Practice, GLP fontos eleme a hitelesités és annak dokumentálása).
A statisztikai szóhasználatban laikus értelmezésében gyakran igen zavaró a véletlen hiba (angolul random error, hiba variancia) megjelölés és ennek más változatai. Tudatában kell lennünk annak, hogy a hétköznapi értelemben vett hiba nem azonos egy mérési eljárás során megnevezhetõ sokféle (technikai jellegû) hibával. A technikai hibát meg kell különböztetni az eljárás során keletkezõ véletlen ingadozástól, ami gyakran nem azonos az egyes statisztikai eljárásokban hiba szóval jelölt komponenssel. A statisztikai terminus technicus-ok, a zsargon sok nehézség forrása lehet, és a hiba szó statisztikai szövegkörnyezetben történõ alkalmazásánál mindig gondolnunk kell arra, hogy milyen hibáról beszélünk, a az adott közönség mire fog gondolni, ha a hiba szót hallja?
A szisztémás hiba a megfigyelések, kísérletek során jelentkezõ olyan hiba, ami a folyamat során nem állandó, egyes méréseket másképpen érint, mint másokat. Jellemzõ szisztémás hibát okozhat a vizsgálati egységek idõben, vagy térben jelentkezõ inhomogenitása. Példáúl sorozatban végzett vizsgálatok során az idõ függvényében változhatnak a vizsgált egyedek, és az elsõ és az utolsó jellegzetesen különbözõ lehet, függetlenül attól, hogy bármi más különbség is lenne közöttük, mint a sorrend. Másik példa szerint a térben egymás mellett lévõ vizsgálati egyedek, példáúl földparcellák egymáshoz hasonlóak, de jelentõsen eltérhetnek a távolabb elhelyezkedõktõl. Ha tehát egy méréshez földparcellákat kell választanunk (példáúl két mûtrágya összehasonlításához) akkor biztosítanunk kell, hogy mind a két anyag egyforma eséllyel kerüljön kipróbálásra bármelyik parcellán, másszóval nem járhatunk úgy el, hogy az egyik kipróbálandó anyagot (kényelmi okokból) a parcellák egyik topográfiailag közellévõ csoportján, és a másik anyagot egy másik csoport parcellán alkalmazzuk. ebben az esetben ugyanis nem tudhatjuk, hogy nem keverjük-e össze a vizsgálandó anyagunk hatását a parcellák csoportjai között esetleg meglévõ (szisztémás) különbséggel.
A szisztémás hiba a szó hétköznapi értelmében is hiba, csak gyakran nem tudjuk, hogy pontosan mi is az oka. Ennek ellenére védekezhetünk ellene a kísérlet tervezés ismert módszereivel, a kísérleti egységek (egyedek) és a megfigyelési csoportok véletlenszerü párosításával, másszóval a randomizálással.
Az ismert faktorok (pl. nem, testsúly, életkor) alapján homogén rétegekre (blokkokra) bontjuk a lehetséges mintát, és az egyes rétegeken belül biztosítjuk a véletlen mintavételt.
A számolás pontossága.
Nem tévesztendô össze a mérés, az eljárás pontosságával. A modern számítógépes eljárások a legtöbb esetben elkerülik a számolás pontatlanságából adódó hibákat. Ezt a programmozóknak kell biztosítaniuk. A kutatónak a felhasznált adatok pontosságát több síkon kell vizsgálnia. A mérô berendezések, a számolási eljárások gyakran adnak nagyon sok számjegyet, és a kutató döntése alapján kell ezekbôl annyit feljegyezni, megtartani, amennyiben valóban meg lehet bízni. Hiba lehet a mérésekben meglévô részletektôl, információtól eltekinteni, példáúl felnôttek testtömegét 5 vagy 10 kilóra kerekíteni, ahelyett, hogy tized kilogramra adnánk meg. Nem érdemes felnõttek testtömegét tizedgram pontossággal mérni.
Koraszülöttek testtömegét viszont gram pontossággal lehet és érdemes nyomonkövetni. Ugyanakkor lenne nem érdemes és célravezetô koraszülöttek testtömegét miligram pontossággal mérni, és feljegyezni. Gyakran elegendô a 3 vagy 4 értékes jegy pontossággal jegyezni a biológiai mérési adatokat, de vannak olyan változók, amelyek pontosabban mérhetôk, és mérendôk is. Az értékes jegyet gyakran angolul "significant digit" jelzi, ami zavart kelthet, ha a "significant" jelzõ más, statisztikai használatával összetévesztjük.
Az értékes jegy fogalma: Az értékes jegy alatt azt értjük, ami mérési eredményként, és nem a nagyságrend megmutatása okából kerül feljegyzésre. Az értékes jegy elhagyásával, vagy kerekítésével információt vesztünk.
A nominális skálán a megállapítható adatokat, a kategorizált adatokat mérjük.
A biológiában gyakori a megfigyelés tárgyának kvalitativ jellemzése, ahol a megfigyeléseket a kategóriákban való megoszlás százalékával, vagy arányokkal jellemezzük. A nominális skálán mért adatok jellegzetes elemzõ módszere a kontingencia tábla, jellemzõ ábrázolás módja az oszlopdiagram, vagy a kör diagram.
Folytonos, intervallum skálán mérjük pl az idõt, a hõmérsékletet (ha C-ban, vagy Fahrenheit fokban mérjük, ahol a nulla pont választásunktól függ).
Folytonos, abszolut skálán (az angolszász irodalomban ratio scale) a nulla pont jól meghatározott, és az adatok hányadosa jól értelmezhetõ mennyiség (pl. a tömeg, vagy a Kelvin fokban mért hõmérséklet).
A biometria számára fontos, hogy a skála nominális, ordinális, diszkrét, vagy folytonos numerikus skála-e. A többi részismeret kevésbé fontos. Az egyes mérési skálák tulajdonságai meghatározzák, hogy milyen biometriai módszereket alkalmazhatunk a rajtuk mért adatok esetében.
Egy adott mérési adat halmaz statisztikai tulajdonságai esetleg olyanok, hogy jó hatásfokú statisztikai eljárások feltételeit nem elégítik ki, de matematikai eljárásokkal, további átalakítással, transzformációval olyan formára hozható, hogy a származtatott (transzformált) adatok fontos tulajdonságai nem torzulnak, de statisztikai kezelhetõsége megváltozik, optimális, vagy megszokott eljárásokat alkalmazhatunk.
Gyakori például hogy az (intervallum skálán
mért) adatok helyett azok logaritmusát használjuk
a statisztikai értékelésben. Ez a logaritmus transzformáció,
ami a megfigyeléseket az eredeti lineáris skáláról
egy logaritmikus skálára viszi át. Miután a
(pozitiv) számok, és azok logaritmusai között kölcsönösen
egyértelmû az átalakítás, ezért
statisztikai gondolatmenetünk eredménye nem csak a logaritmusokra,
hanem az eredeti mérési adatokra is érvényesek
lehetnek.