Bevezetés a biometriába

Fogalmak

 
Valószínûségszámítás Statisztikák Eljárások, próbák
Populáció Statisztika  
Elemi esemény Minta Becslés
Eseménytér Terjedelem A becslések tulajdonságai
Valószínûség Kvantilis Torzítatlan becslés
Feltételes valószínûség Kvartilis Hatásos becslés
Valószínûségi változó Interkvartilis terjedelem Konzisztens becslés
Gyakorisági eloszlás Középérték Elégséges becslés
Valószínûségeloszlás Medián Pontbecslés
Valószínûségeloszlás függvény Módusz Regresszió
Valószínûségsûrûség függvény Ferdeség Statisztikai hipotézis
Minta eloszlás Csúcsosság Nullhipotézis
Normális (Gauss) eloszlás Négyzetes eltérések (összege) Alternatív hipotézis
Binomiális eloszlás Közepes négyzetes eltérés Szignifikancia szint
Poisson eloszlás Variancia Elsõfajú hiba
Paraméter Szórás Másodfajú hiba
Várható érték Variációs együttható Statisztikai próba
Központi határeloszlás tétel   Paraméteres próba
Nagy számok törvénye Szabadsági fok Nemparaméteres próba
Csebisev-tétel Z-pontszám  
Hisztogram Konfidencia intervallum Legkisebb négyzetek módszere
Véletlen kísérlet Korrelációs együttható Maximum likelihood módszer
Populáció (Population)
Alapsokaság, olyan vizsgálni kívánt egyedek, objektumok, tárgyak vagy más tetszõleges elemek véges vagy végtelen összessége, amelyeknek közös megfigyelhetõ jellemzõi vannak. Elméleti összesség is lehet, potenciálisan megfigyelhetõ elemekkel. A kutatás célja, hogy jellemezzük és következtetéseket vonjunk le róla. Átvitt értelemben az egyes elemek valamilyen tulajdonságaira vonatkozó értékek összessége. 
Minta (Sample)

A populáció relative kis méretû kiragadott része valamilyen elõírás szerint válogatva, eleme a véletlen változó. 
Paraméter (Parameter)
A populáció valamely jellemzõje, a populáció eloszlására jellemzõ állandó. 
Valószínûségi változó (Random variable)
Értékeit ismeretlen vagy nem kontrollált ("véletlen") okok is befolyásolják. Csak azt lehet megmondani, hogy egyes értékei milyen valószínûséggel esnek egy adott intervallumba. 
Valószínûség (Probability) (részletes tárgyalása)
Feltételes valószínûség (Conditional probability)
Az A eseménynek olyan módon számított valószínûsége, hogy figyelembe vesszük az A-val kapcsolatos B esemény bekövetkezését. Jele: p(A | B). p(A | B) = p(A ^ B) / p(B), ahol p(A ^ B) az A és B esemény együttes bekövetkezésének valószínûsége. 
Statisztika (Statistics)
A mintából (megfigyelési adatokból) számított mennyiségek, rendszerint a populáció paramétereinek becslései. Mivel valószínûségi változók függvényei, maguk is valószínûségi változók. 
Becslés (Estimate)
Olyan statisztika, amely egyben a populáció valamely ismeretlen paramétere közelítõ értékének számítási formuláját is képezi. 
Valószínûségeloszlás (Probability distribution)
A valószínûségi változó eloszlása az a törvényszerûség, amely szerint a valószínûségi változó az értékeit felveszi. 
Gyakorisági eloszlás (Frequency distribution)
Tapasztalati adatok, megfigyelések (egy valószínûségi változó realizálódott értékei) meghatározott szempont szerint kialakított csoportjai gyakoriságainak összessége.

Grafikus megjelenítése a hisztogram. 
Hisztogram (Histogram)
A gyakorisági eloszlás egyik ábrázolási módja. Az adatok nagyság szerinti csoportosításával kapott minden osztály fölé olyan téglalapot emelünk, melynek területe arányos a megfelelõ osztályba esõ adatok számával vagy relatív gyakoriságával. 
Valószínûségeloszlás függvény (Cumulative probability distribution function)
X pontbeli értéke annak a valószínûségét adja meg, hogy a valószínûségi változó értéke X-nél kisebb. A valószínûségi változó legfontosabb jellemzõje. (Jele: F(x)) 
Valószínûségsûrûség függvény (Probabilty distribution function)
Ha annak a valószínûsége, hogy egy X valószínûségi változó értéke egy tetszõlegesen megadott intervallumba esik, megadható egy függvény görbéje alatti területnek az intervallumba esõ részével, akkor a függvényt az X valószínûségi változó sûrûségfüggvényének nevezzük. (Jele: f(x)) 
Ferdeség (Skewness)
Az eloszlásnak az a tulajdonsága, hogy nem szimmetrikus. Ha az eloszlás (azaz sûrûségfüggvénye, hisztogramja) jobbra elnyúltabb, jobbra ferdének (skewed to right), ha balra, akkor balra ferdének nevezzük (skewed to left). 
Csúcsosság (Kurtosis)
Relatív fogalom, azt jelzi, hogy az eloszlás az azonos középértékû és szórású normális eloszlásnál jobban vagy kezvésbé tömörül. Ha az eloszlás a normálisnál jobban tömörül, az eloszlást csúcsosnak (leptokurtic), ellenkezõ esetben laposnak (platykurtic) nevezzük. 
Várható érték (Expected value)
A populáció eloszlásának (elméleti) középértéke. Becslése a valószínûségi változó(k függvényének) ismételt mintáiból számított középértékkel történik. (Jele: mü) 
Középérték (Mean)
A mintából számított átlaggal becsülhetõ, a várható érték becslése. (Helyparaméter, measure of location). (Jele: X felülvonás) 
Medián (Median)
Az a statisztika, amely a gyakorisági eloszlást két olyan részre osztja, amely részekbe az értékek 50-50 %-a tartozik (a mediánnál nagyobb ill. kisebb értékek elõfordulási valószínûsége 1/2 - 1/2). (Helyparaméter). 
Módusz (Mode)
A gyakorisági eloszlás legvalószínûbb (leggyakoribb) értéke. Folytonos eloszlásnál a sûrûségfüggvény csúcsa.(Helyparaméter). 
Kvantilis (Quantile)
A p-kvantilis az az Xp érték, amelyre p a valószínûsége annak, hogy a valószínûségi változó értéke nála kisebb. Nevezetes kvantilisek a kvartilisek. (Helyparaméter). 
Kvartilis (Quartiles)
Az a statisztika, amely a gyakorisági eloszlást négy olyan részre osztja, amely részekbe az értékek 1/4, 1/2, 3/4 része esik (illetve azok a számok, amelyek alá az értékek 1/4, 1/2, 3/4 valószínûséggel esnek). A második kvartilis a medián. (Helyparaméter). 
Terjedelem (Range)
A minta legnagyobb és legkisebb elemének különbsége. A szóródás egyik mérõszáma. 
Interkvartilis terjedelem (Interquartile range)
Az elsõ és harmadik kvartilis különbsége. Jele: IQR. 
Variancia (Variance)
Statisztika, a szóródás egyik leggyakoribb mérõszáma, "kvadratikus középérték". A középértéktõl való eltérések négyzetének középértéke. Torzítatlan becslése n elem esetén a négyzetes eltérések összege (n-1)-el elosztva. (Szóródási paraméter). (Jele: szigma-négyzet, a becslés jele s-négyzet) 
Szórás (Standard deviation)
A variancia pozitív négyzetgyöke, a szóródás gyakran használt mérõszáma. (Jele: s). (Szóródási paraméter). 
Négyzetes eltérések (összege) (Sum of Squares: SS)
A középértéktõl számított különbségek négyzeteinek összege (additív tulajdonsága miatt a legtöbb teszt alapjául választott statisztika (pl. variancia analízis)). 
Közepes négyzetes eltérés (Mean square deviation)
Az adatok középértékétõl vett eltérésnégyzetösszeg a szabadsági fokok számával súlyozva (osztva). Ha az adatok szóródását csak véletlen hibák okozzák, megegyezik a varianciával. 
Szabadsági fok (Degrees of freedom (df), Freiheitsgrad (FG))
Egy jelenség leírására gyüjtött ill. számított adathalmaz által tartalmazott információval kapcsolatos. Megadja, hogy az adathalmaz konkrét értékeinek megismerését hány szabadon választható független jellemzõ közlésével lehet egyenértékûnek tekinteni. (Pl. ha az átlag körüli szóródást n adat jellemzi, (az x-vonás - x különbségek), akkor a szabadsági fok n-1. 
Variációs együttható (Coefficient of variation)
A szórás kifejezése az átlag százalékában: CV = (s * 100) / X-vonás 
Véletlen kísérlet (Random experiment)
Olyan kísérlet (általánosabb értelemben a megfigyelés is), amelyek kimenetelét az általunk figyelembe vett feltételek nem határozzák meg egyértelmûen. Kimenetelei, a véletlen események, amelyek bekövetkezését valószínûségeloszlásuk írja le. 
Elemi esemény (Elementary event)
Valamely kísérlettel kapcsolatban a kísérlet lehetséges kimeneteleit elemi eseménynek nevezzük. 
Eseménytér (Sample space)
Az elemi események (a kísérlet összes lehetséges kimeneteleinek) összessége. 
A nagy számok törvénye (Law of large numbers)
A kísérletet igen sokszor, egymástól függetlenûl elvégezve, a relatív gyakoriságok (az esemény gyakoriságának és a kísérletek számának hányadosa) stabilitást mutatnak. 
Z-pontszám (Z-score)
Standardizált pontszám, azt adja meg, hogy a minta egyedeihez tartozó mért értékeik hány szórásnyira esnek az átlagtól, z = (xi-x-vonás) /s Az x valószínûségi változó középértéke, x-vonás, szórása s. 
Csebisev-tétel (Chebyshev's theorem)
A populációnak legalább (1-1/k^2) eleme tartozik a középérték k szórásnyi környezetébe függetlenül a változó eloszlásától (k>1). 
Binomiális eloszlás (Bernoulli eloszlás)(Binomial distribution)
Akkor lép fel, amikor a vizsgált populáció egyedeinek a hányada megadott tulajdonságú. Minden kétkimenetelû kisérletben (dichotóm valószínûségi változó) a kísérletet n-szer elvégezve az egyik alternatíva bekövetkezésének száma (x) binomális eloszlást követ. P(x) annak valószínûsége, hogy a kísérletben éppen k-szor következik be az egyik alternatíva

p(x) = ( )p^x q^(n-x), ahol q=1-p
Középértéke = np = m, szórása = np(1- p) 
Poisson eloszlás (Poisson distribution)
Egy populációban igen kis arányban levõ (p valószínûségû) bizonyos tulajdonságú egyedek eloszlása, ha a kísérletek számát (n) minden határon túl növeljük úgy, hogy az np =m állandó legyen. Többnyire az idõ vagy a tér adott intervallumában elõforduló eseményekrõl van szó. (A binomiális eloszlás határértéke.)

p(x) = mü^xe^-mü / x! 
Normális (Gauss) eloszlás (Normal distribution)
A természetben akkor fordul elõ, ha sok, egymástól független (és az együttes hatáshoz képest kis hatású) tényezõ hatása összeadódik.

Sûrûségfüggvénye: f(x) = 1/szigma sqrt(2pi) e^(-(x-mü)^2 / 2szigma^2)

Standard normális eloszlás: középértéke = 0, szórása = 1. Tetszõleges normális eloszlásról a z-transzformációval lehet áttérni a standard normális eloszlásra. 

Központi határeloszlás tétel (Central limit theorem)
Nagyszámú, független valószínûségi változó összege aszimptotikusan normális eloszlású, ha az egyes valószínûségi változók elég kicsik az összeghez képest. (Aszimptotikusan: ha a valószínûségi változók egyre nagyobb számú összegének sorozatát vesszük.) 
Minta eloszlás (Sampling distribution)
A mintából számított statisztika (mint valószínûségi változó) elméleti valószínûségeloszlása. Akkor állna elõ, ha egy adott méretû mintát minden lehetséges módon kiválasztva a populációból, mindannyiszor kiszámítanánk a statisztikát. A statisztikai következtetés alapja, ismerete szükséges a becslés minõsítéséhez, azaz a becslés hibájának jellemzéséhez. 
Pontbecslés (Point estimation)
Paraméterbecslés, a becslés egyetlen mintán alapszik (egyetlen becslést ad a paraméterre). Pontosságát a mintaeloszlás alapján állapíthatjuk meg. 
Intervallumbecslés (Interval estimation)
Paraméterbecslés, az ismeretlen paraméterre intervallumot állapítunk meg (konfidencia intervallum). 
A becslések tulajdonságai:
Torzítatlan becslés (Unbiased estimate)
A becslés elméleti középértéke minden mintaelemszám esetén éppen a keresett paraméter. 
Hatásos becslés (Efficient estimation)
A becslésnek a paramétertõl való közepes négyzetes eltérése minimális. Két egyaránt torzítatlan becslés közül az a hatásosabb, amelyre a közepes négyzetes eltérés a kisebb. 
Konzisztens becslés (Consistent estimate)
Becsléssorozat, amelyben a becslések torzítatlanok és közepes négyzetes eltérésük a zérushoz közeledik (sztochasztikusan konvergál) a paraméter valódi értékéhez, azaz zérus valószínûséggel fordul elõ, hogy a becslés hibája adott hibahatárnál nagyobb legyen).
Elégséges becslés (Sufficient estimation)
Olyan becslés, amely az összes információt tartalmazza a paraméterre, amit a mintából kaphatunk. (Pl. a normális eloszlásra középérték és a szórás elégséges statisztika).
Maximum likelihood módszer (Maximum likelihood method)
Az egyik legáltalánosabb módszer a paraméter optimális becslésének kiválasztására. A paramétert azzal az értékkel becsüljük, amely ha a paraméter valódi értéke volna, a kapott n-elemû minta bekövetkezése lenne a legvalószínûbb az összes lehetséges n-elemû minták közül. Az adott minta valószínûségét leíró likelihood függvény maximumát keressük. 
Legkisebb négyzetek módszere (Least squares method)
Szintén gyakran alkalmazott becslési módszer, minimalizálja a paraméter valódi és becsült értéke közötti eltérésnégyzetösszeget. 
Konfidencia intervallum (Confidence interval)
Olyan becslési intervallum, amely az ismeretlen paraméter értékét elõre megadott valószínûséggel (konfidenciaszint) lefedi. Végpontjai a konfidencia határok. Ha a becsült paraméter a, a becslés a-vonás, a szignifikanciaszint 1-p, ahol p tetszõleges, de általában 0.05, 0.01, 0.001, akkor a [-d, d] konfidencia intervallum:

P ( -d < a - a-vonás < d) = P (a-vonás - d < a < a-vonás + d) = 1-p 
Statisztikai hipotézis (Statistical hypothesis)
A mintáról a populációra való statisztikai következtetésnek (a paraméterbecslés mellett) második fontos módszere az az eljárás, amelynek során a populációra vonatkozó valamilyen feltételezést a mintaelemek alapján statisztikai próbával ellenõrízzük. Az ilyen feltételezések a statisztikai hipotézisek. 
Nullhipotézis (Null hypothesis)
(Alaphipotézis, próbahipotézis) az a hipotézis, amelyet a statisztikai próbával elõre megadott szignifikancia szinten vizsgálunk. Jele: H0 
Szignifikancia szint (Significance level)
Valamely statisztikai próbához elõre megadott valószínûségérték, az ennél kisebb valószínûséggel bekövetkezõ eseményeket a véletlennek (és nem a vizsgált szisztematikus hatásnak) tulajdonítjuk. Jele: alfa. 
Elsõfajú hiba (Type I. error, type a error)
Valamely nullhipotézis statisztikai próbával végzett vizsgálatában az a hiba, amelyet a nullhipotézis elutasítása jelent amikor az igaz. Valószínûsége az elsõfajú kockázat (alfa). 
Másodfajú hiba (Type II. error, type beta error)
Az a hibás döntés, hogy nem vetjük el a helytelen nullhipotézist abban az esetben, amikor az alternatív hipotézis igaz. A próba közvetlenül nem ellenõrzi, ezért ha a próba nem utasítja el a nullhipotézist, ez még nem jelenti azt, hogy a nullhipotézist megfelelõ statisztikai biztonsággal elfogadhatjuk. Valószínûsége a másodfajú kockázat (béta). 
Statisztikai próba (Statistical test)
Olyan eljárás, amely valamilyen statisztikai hipotézisnek, azaz egy vagy több, a populációra vonatkozó valamilyen feltevésnek az ellenõrzését teszi lehetõvé a populációból vett minta alapján. A próba abban áll, hogy a megfigyelésekbõl számított valamilyen próbastatisztika segítségével eldöntjük, hogy a nullhipotézist el kell-e utasítani s ezáltal az alternatív hipotézist elfogadni, vagy nem. 
Paraméteres próba (Parametric test)
Valamely paraméteres hipotézist ellenõrzi, feltételezést igényel a változók eloszlástipusára vonatkozólag (amely feltételezést a próbában nem vizsgáljuk). 
Nemparaméteres próba (Nonparametric test)
Hipotézisvizsgálat, amelynél a próbastatisztika eloszlása a nullhipotézis esetén független az alapeloszlástól (a változók eloszlásától). 
A próba ereje (Power of the test)
Az a valószínûség, amellyel a nullhipotézist elutasítjuk, amikor az alternatív hipotézis teljesül. Minél nagyobb a próba ereje, annál jobban szétválasztja a H0 és H1 hipotéziseket. Jele: 1-beta. 
Regresszió (Regression)
Két (vagy több) véletlen változó regressziós kapcsolata, Y = f(Xi) akkor írható fel, ha az Y függõ változó két komponensbõl áll: egy determinisztikus (szisztematikus), az Xi-ktõl (független változóktól) függõ részbõl és egy véletlen komponensbõl (reziduális rész), továbbá, ha ez utóbbi középértéke zérus. Ha i>1, többszörös regresszióról beszélünk. 
Korrelációs együttható (Coefficient of correlation)
Két véletlen változó lineáris (sztochasztikus) kapcsolatának, függõségének mértéke, (jele r).

(Képlete készülõben)

A 1 ill. -1 teljes negatív ill. pozitív függõséget jelent.