Bevezetés a biometriába

Fogalmak

Populáció
Minta
Paraméter
Valószínűségi változó
Valószínűség
Feltételes valószínűség
Statisztika
Becslés
Valószínűségeloszlás
Gyakorisági eloszlás
Hisztogram
Valószínűségeloszlás függvény
Valószínűségsűrűség függvény
Ferdeség
Csúcsosság
Várható érték
Középérték
Medián
Módusz
Kvantilis
Kvartilis
Terjedelem
Interkvartilis terjedelem
Variancia
Szórás
Négyzetes eltérések (összege)
Közepes négyzetes eltérés
Szabadsági fok
Variációs együttható
Véletlen kísérlet
Elemi esemény
Eseménytér
Nagy számok törvénye
Z-pontszám
Csebisev-tétel
Binomiális eloszlás
Poisson eloszlás
Normális (Gauss) eloszlás
Központi határeloszlás tétel
Minta eloszlás
Pontbecslés
A becslések tulajdonságai
- Torzítatlan becslés
- Hatásos becslés
- Konzisztens becslés
- Elégséges becslés
Maximum likelihood módszer
Legkisebb négyzetek módszere
Konfidencia intervallum
Statisztikai hipotézis
Nullhipotézis
Alternatív hipotézis
Szignifikancia szint
Elsőfajú hiba
Másodfajú hiba
Statisztikai próba
Paraméteres próba
Nemparaméteres próba
A próba ereje
Regresszió
Korrelációs együttható

Populáció (Population)

Alapsokaság, olyan vizsgálni kívánt egyedek, objektumok, tárgyak vagy más tetszőleges elemek véges vagy végtelen összessége, amelyeknek közös megfigyelhető jellemzői vannak. Elméleti összesség is lehet, potenciálisan megfigyelhető elemekkel. A kutatás célja, hogy jellemezzük és következtetéseket vonjunk le róla.
Átvitt értelemben az egyes elemek valamilyen tulajdonságaira vonatkozó értékek összessége.

Minta (Sample)

A populáció relative kis méretű kiragadott része valamilyen előírás szerint válogatva, eleme a véletlen változó.

Paraméter (Parameter)

A populáció valamely jellemzője, a populáció eloszlására jellemző állandó.

Valószínűségi változó (Random variable)

Értékeit ismeretlen vagy nem kontrollált ("véletlen") okok is befolyásolják. Csak azt lehet megmondani, hogy egyes értékei milyen valószínűséggel esnek egy adott intervallumba.

Valószínűség (Probability)

Egy véletlen esemény bekövetkezésének (a valószínűségi változó egy adott értéke megvalósulásának) gyakoriságára jellemző számérték, a relatív gyakoriságok határértéke. (szemléletes, köznapi jelentés)
Véletlen események összességén definiált függvény (mérték), az A eseményhez a p(A) (0 és 1 közötti) számot rendeli (valószínűségelméleti, axiomatikus definíció).

Feltételes valószínűség (Conditional probability)

Az A eseménynek olyan módon számított valószínűsége, hogy figyelembe vesszük az A-val kapcsolatos B esemény bekövetkezését. Jele: p(A | B). p(A | B) = p(A ^ B) / p(B), ahol p(A ^ B) az A és B esemény együttes bekövetkezésének valószínűsége.

Statisztika (Statistics)

A mintából (megfigyelési adatokból) számított mennyiségek, rendszerint a populáció paramétereinek becslései. Mivel valószínűségi változók függvényei, maguk is valószínűségi változók.

Becslés (Estimate)

Olyan statisztika, amely egyben a populáció valamely ismeretlen paramétere közelítő értékének számítási formuláját is képezi.

Valószínűségeloszlás (Probability distribution)

A valószínűségi változó eloszlása az a törvényszerűség, amely szerint a valószínűségi változó az értékeit felveszi.

Gyakorisági eloszlás (Frequency distribution)

Tapasztalati adatok, megfigyelések (egy valószínűségi változó realizálódott értékei) meghatározott szempont szerint kialakított csoportjai gyakoriságainak összessége.
Grafikus megjelenítése a hisztogram.

Hisztogram (Histogram)

A gyakorisági eloszlás egyik ábrázolási módja. Az adatok nagyság szerinti csoportosításával kapott minden osztály fölé olyan téglalapot emelünk, melynek területe arányos a megfelelő osztályba eső adatok számával vagy relatív gyakoriságával.

Valószínűségeloszlás függvény (Cumulative probability distribution function)

X pontbeli értéke annak a valószínűségét adja meg, hogy a valószínűségi változó értéke X-nél kisebb. A valószínűségi változó legfontosabb jellemzője. (Jele: F(x))

Valószínűségsűrűség függvény (Probabilty distribution function)

Ha annak a valószínűsége, hogy egy X valószínűségi változó értéke egy tetszőlegesen megadott intervallumba esik, megadható egy függvény görbéje alatti területnek az intervallumba eső részével, akkor a függvényt az X valószínűségi változó sűrűségfüggvényének nevezzük. (Jele: f(x))

Ferdeség (Skewness)

Az eloszlásnak az a tulajdonsága, hogy nem szimmetrikus. Ha az eloszlás (azaz sűrűségfüggvénye, hisztogramja) jobbra elnyúltabb, jobbra ferdének (skewed to right), ha balra, akkor balra ferdének nevezzük (skewed to left).

Csúcsosság (Kurtosis)

Relatív fogalom, azt jelzi, hogy az eloszlás az azonos középértékű és szórású normális eloszlásnál jobban vagy kezvésbé tömörül. Ha az eloszlás a normálisnál jobban tömörül, az eloszlást csúcsosnak (leptokurtic), ellenkező esetben laposnak (platykurtic) nevezzük.

Várható érték (Expected value)

A populáció eloszlásának (elméleti) középértéke. Becslése a valószínűségi változó(k függvényének) ismételt mintáiból számított középértékkel történik. (Jele: mü)

Középérték (Mean)

A mintából számított átlaggal becsülhető, a várható érték becslése. (Helyparaméter, measure of location). (Jele: X felülvonás)

Medián (Median)

Az a statisztika, amely a gyakorisági eloszlást két olyan részre osztja, amely részekbe az értékek 50-50 %-a tartozik (a mediánnál nagyobb ill. kisebb értékek előfordulási valószínűsége 1/2 - 1/2). (Helyparaméter).

Módusz (Mode)

A gyakorisági eloszlás legvalószínűbb (leggyakoribb) értéke. Folytonos eloszlásnál a sűrűségfüggvény csúcsa.(Helyparaméter).

Kvantilis (Quantile)

A p-kvantilis az az Xp érték, amelyre p a valószínűsége annak, hogy a valószínűségi változó értéke nála kisebb. Nevezetes kvantilisek a kvartilisek. (Helyparaméter).

Kvartilis (Quartiles)

Az a statisztika, amely a gyakorisági eloszlást négy olyan részre osztja, amely részekbe az értékek 1/4, 1/2, 3/4 része esik (illetve azok a számok, amelyek alá az értékek 1/4, 1/2, 3/4 valószínűséggel esnek). A második kvartilis a medián. (Helyparaméter).

Terjedelem (Range)

A minta legnagyobb és legkisebb elemének különbsége. A szóródás egyik mérőszáma.

Interkvartilis terjedelem (Interquartile range)

Az első és harmadik kvartilis különbsége. Jele: IQR.

Variancia (Variance)

Statisztika, a szóródás egyik leggyakoribb mérőszáma, "kvadratikus középérték". A középértéktől való eltérések négyzetének középértéke. Torzítatlan becslése n elem esetén a négyzetes eltérések összege (n-1)-el elosztva. (Szóródási paraméter). (Jele: szigma-négyzet, a becslés jele s-négyzet)

Szórás (Standard deviation)

A variancia pozitív négyzetgyöke, a szóródás gyakran használt mérőszáma. (Jele: s). (Szóródási paraméter).

Négyzetes eltérések (összege) (Sum of Squares: SS)

A középértéktől számított különbségek négyzeteinek összege (additív tulajdonsága miatt a legtöbb teszt alapjául választott statisztika (pl. variancia analízis)).

Közepes négyzetes eltérés (Mean square deviation)

Az adatok középértékétől vett eltérésnégyzetösszeg a szabadsági fokok számával súlyozva (osztva). Ha az adatok szóródását csak véletlen hibák okozzák, megegyezik a varianciával.

Szabadsági fok (Degrees of freedom (df), Freiheitsgrad (FG))

Egy jelenség leírására gyüjtött ill. számított adathalmaz által tartalmazott információval kapcsolatos. Megadja, hogy az adathalmaz konkrét értékeinek megismerését hány szabadon választható független jellemző közlésével lehet egyenértékűnek tekinteni. (Pl. ha az átlag körüli szóródást n adat jellemzi, (az x-vonás - x különbségek), akkor a szabadsági fok n-1.

Variációs együttható (Coefficient of variation)

A szórás kifejezése az átlag százalékában: CV = (s * 100) / X-vonás

Véletlen kísérlet (Random experiment)

Olyan kísérlet (általánosabb értelemben a megfigyelés is), amelyek kimenetelét az általunk figyelembe vett feltételek nem határozzák meg egyértelműen. Kimenetelei, a véletlen események, amelyek bekövetkezését valószínűségeloszlásuk írja le.

Elemi esemény (Elementary event)

Valamely kísérlettel kapcsolatban a kísérlet lehetséges kimeneteleit elemi eseménynek nevezzük.

Eseménytér (Sample space)

Az elemi események (a kísérlet összes lehetséges kimeneteleinek) összessége.

A nagy számok törvénye (Law of large numbers)

A kísérletet igen sokszor, egymástól függetlenűl elvégezve, a relatív gyakoriságok (az esemény gyakoriságának és a kísérletek számának hányadosa) stabilitást mutatnak.

Z-pontszám (Z-score)

Standardizált pontszám, azt adja meg, hogy a minta egyedeihez tartozó mért értékeik hány szórásnyira esnek az átlagtól, z = (xi-x-vonás) /s Az x valószínűségi változó középértéke, x-vonás, szórása s.

Csebisev-tétel (Chebyshev's theorem)

A populációnak legalább (1-1/k^2) eleme tartozik a középérték k szórásnyi környezetébe függetlenül a változó eloszlásától (k>1).

Binomiális eloszlás (Bernoulli eloszlás)(Binomial distribution)

Akkor lép fel, amikor a vizsgált populáció egyedeinek a hányada megadott tulajdonságú. Minden kétkimenetelű kisérletben (dichotóm valószínűségi változó) a kísérletet n-szer elvégezve az egyik alternatíva bekövetkezésének száma (x) binomális eloszlást követ. P(x) annak valószínűsége, hogy a kísérletben éppen k-szor következik be az egyik alternatíva
p(x) = ( )p^x q^(n-x), ahol q=1-p
Középértéke = np = m, szórása = np(1- p)

Poisson eloszlás (Poisson distribution)

Egy populációban igen kis arányban levő (p valószínűségű) bizonyos tulajdonságú egyedek eloszlása, ha a kísérletek számát (n) minden határon túl növeljük úgy, hogy az np =m állandó legyen. Többnyire az idő vagy a tér adott intervallumában előforduló eseményekről van szó. (A binomiális eloszlás határértéke.)
p(x) = mü^xe^-mü / x!

Normális (Gauss) eloszlás (Normal distribution)

A természetben akkor fordul elő, ha sok, egymástól független (és az együttes hatáshoz képest kis hatású) tényező hatása összeadódik.
Sűrűségfüggvénye: f(x) = 1/szigma sqrt(2pi) e^(-(x-mü)^2 / 2szigma^2)

Standard normális eloszlás: középértéke = 0, szórása = 1. Tetszőleges normális eloszlásról a z-transzformációval lehet áttérni a standard normális eloszlásra.

Központi határeloszlás tétel (Central limit theorem)

Nagyszámú, független valószínűségi változó összege aszimptotikusan normális eloszlású, ha az egyes valószínűségi változók elég kicsik az összeghez képest. (Aszimptotikusan: ha a valószínűségi változók egyre nagyobb számú összegének sorozatát vesszük.)

Minta eloszlás (Sampling distribution)

A mintából számított statisztika (mint valószínűségi változó) elméleti valószínűségeloszlása. Akkor állna elő, ha egy adott méretű mintát minden lehetséges módon kiválasztva a populációból, mindannyiszor kiszámítanánk a statisztikát. A statisztikai következtetés alapja, ismerete szükséges a becslés minősítéséhez, azaz a becslés hibájának jellemzéséhez.

Pontbecslés (Point estimation)

Paraméterbecslés, a becslés egyetlen mintán alapszik (egyetlen becslést ad a paraméterre). Pontosságát a mintaeloszlás alapján állapíthatjuk meg.

Intervallumbecslés (Interval estimation)

Paraméterbecslés, az ismeretlen paraméterre intervallumot állapítunk meg (konfidencia intervallum).

A becslések tulajdonságai:

Torzítatlan becslés (Unbiased estimate): A becslés elméleti középértéke minden mintaelemszám esetén éppen a keresett paraméter.
Hatásos becslés (Efficient estimation): A becslésnek a paramétertől való közepes négyzetes eltérése minimális. Két egyaránt torzítatlan becslés közül az a hatásosabb, amelyre a közepes négyzetes eltérés a kisebb.
Konzisztens becslés (Consistent estimate): Becsléssorozat, amelyben a becslések torzítatlanok és közepes négyzetes eltérésük a zérushoz közeledik (sztochasztikusan konvergál) a paraméter valódi értékéhez, azaz zérus valószínűséggel fordul elő, hogy a becslés hibája adott hibahatárnál nagyobb legyen).
Elégséges becslés (Sufficient estimation): Olyan becslés, amely az összes információt tartalmazza a paraméterre, amit a mintából kaphatunk. (Pl. a normális eloszlásra középérték és a szórás elégséges statisztika).

Maximum likelihood módszer (Maximum likelihood method)

Az egyik legáltalánosabb módszer a paraméter optimális becslésének kiválasztására. A paramétert azzal az értékkel becsüljük, amely ha a paraméter valódi értéke volna, a kapott n-elemű minta bekövetkezése lenne a legvalószínűbb az összes lehetséges n-elemű minták közül. Az adott minta valószínűségét leíró likelihood függvény maximumát keressük.

Legkisebb négyzetek módszere (Least squares method)

Szintén gyakran alkalmazott becslési módszer, minimalizálja a paraméter valódi és becsült értéke közötti eltérésnégyzetösszeget.

Konfidencia intervallum (Confidence interval)

Olyan becslési intervallum, amely az ismeretlen paraméter értékét előre megadott valószínűséggel (konfidenciaszint) lefedi. Végpontjai a konfidencia határok. Ha a becsült paraméter a, a becslés a-vonás, a szignifikanciaszint 1-p, ahol p tetszőleges, de általában 0.05, 0.01, 0.001, akkor a [-d, d] konfidencia intervallum:
P ( -d < a - a-vonás < d) = P (a-vonás - d < a < a-vonás + d) = 1-p

Statisztikai hipotézis (Statistical hypothesis)

A mintáról a populációra való statisztikai következtetésnek (a paraméterbecslés mellett) második fontos módszere az az eljárás, amelynek során a populációra vonatkozó valamilyen feltételezést a mintaelemek alapján statisztikai próbával ellenőrízzük. Az ilyen feltételezések a statisztikai hipotézisek.

Nullhipotézis (Null hypothesis)

(Alaphipotézis, próbahipotézis) az a hipotézis, amelyet a statisztikai próbával előre megadott szignifikancia szinten vizsgálunk. Jele: H0

Alternatív hipotézis (Alternative hypothesis)

(Ellenhipotézis) felöleli a populáció részben ismeretlen eloszlására vonatkozó összes (a feltevés keretében megengedett) lehetőséget arra az esetre, ha a nullhipotézis nem helyes. Jele: H1

Szignifikancia szint (Significance level)

Valamely statisztikai próbához előre megadott valószínűségérték, az ennél kisebb valószínűséggel bekövetkező eseményeket a véletlennek (és nem a vizsgált szisztematikus hatásnak) tulajdonítjuk. Jele: alfa.

Elsőfajú hiba (Type I. error, type a error)

Valamely nullhipotézis statisztikai próbával végzett vizsgálatában az a hiba, amelyet a nullhipotézis elutasítása jelent amikor az igaz. Valószínűsége az elsőfajú kockázat (alfa).

Másodfajú hiba (Type II. error, type beta error)

Az a hibás döntés, hogy nem vetjük el a helytelen nullhipotézist abban az esetben, amikor az alternatív hipotézis igaz. A próba közvetlenül nem ellenőrzi, ezért ha a próba nem utasítja el a nullhipotézist, ez még nem jelenti azt, hogy a nullhipotézist megfelelő statisztikai biztonsággal elfogadhatjuk. Valószínűsége a másodfajú kockázat (béta).

Statisztikai próba (Statistical test)

Olyan eljárás, amely valamilyen statisztikai hipotézisnek, azaz egy vagy több, a populációra vonatkozó valamilyen feltevésnek az ellenőrzését teszi lehetővé a populációból vett minta alapján. A próba abban áll, hogy a megfigyelésekből számított valamilyen próbastatisztika segítségével eldöntjük, hogy a nullhipotézist el kell-e utasítani s ezáltal az alternatív hipotézist elfogadni, vagy nem.

Paraméteres próba (Parametric test)

Valamely paraméteres hipotézist ellenőrzi, feltételezést igényel a változók eloszlástipusára vonatkozólag (amely feltételezést a próbában nem vizsgáljuk).

Nemparaméteres próba (Nonparametric test)

Hipotézisvizsgálat, amelynél a próbastatisztika eloszlása a nullhipotézis esetén független az alapeloszlástól (a változók eloszlásától).

A próba ereje (Power of the test)

Az a valószínűség, amellyel a nullhipotézist elutasítjuk, amikor az alternatív hipotézis teljesül. Minél nagyobb a próba ereje, annál jobban szétválasztja a H0 és H1 hipotéziseket. Jele: 1-beta.

Regresszió (Regression)

Két (vagy több) véletlen változó regressziós kapcsolata, Y = f(Xi) akkor írható fel, ha az Y függő változó két komponensből áll: egy determinisztikus (szisztematikus), az Xi-ktől (független változóktól) függő részből és egy véletlen komponensből (reziduális rész), továbbá, ha ez utóbbi középértéke zérus. Ha i>1, többszörös regresszióról beszélünk.

Korrelációs együttható (Coefficient of correlation)

Két véletlen változó lineáris (sztochasztikus) kapcsolatának, függőségének mértéke, (jele r).

($$ képlet)

A 1 ill. -1 teljes negatív ill. pozitív függőséget jelent.