Alapsokaság, olyan vizsgálni kívánt egyedek, objektumok, tárgyak vagy más
tetszőleges elemek véges vagy végtelen összessége, amelyeknek közös
megfigyelhető jellemzői vannak. Elméleti összesség is lehet, potenciálisan
megfigyelhető elemekkel. A kutatás célja, hogy jellemezzük és következtetéseket
vonjunk le róla.
Átvitt értelemben az egyes elemek valamilyen tulajdonságaira vonatkozó értékek
összessége.
Minta (Sample)
A populáció relative kis méretű kiragadott része valamilyen előírás szerint
válogatva, eleme a véletlen változó.
Paraméter (Parameter)
A populáció valamely jellemzője, a populáció eloszlására jellemző állandó.
Valószínűségi változó (Random variable)
Értékeit ismeretlen vagy nem kontrollált ("véletlen") okok is
befolyásolják. Csak azt lehet megmondani, hogy egyes értékei milyen
valószínűséggel esnek egy adott intervallumba.
Valószínűség (Probability)
Egy véletlen esemény bekövetkezésének (a valószínűségi változó egy adott
értéke megvalósulásának) gyakoriságára jellemző számérték, a relatív
gyakoriságok határértéke. (szemléletes, köznapi jelentés)
Véletlen események összességén definiált függvény (mérték), az A eseményhez
a p(A) (0 és 1 közötti) számot rendeli (valószínűségelméleti, axiomatikus definíció).
Feltételes valószínűség (Conditional probability)
Az A eseménynek olyan módon számított valószínűsége, hogy figyelembe
vesszük az A-val kapcsolatos B esemény bekövetkezését. Jele: p(A | B).
p(A | B) = p(A ^ B) / p(B), ahol p(A ^ B) az A és B esemény együttes
bekövetkezésének valószínűsége.
Statisztika (Statistics)
A mintából (megfigyelési adatokból) számított mennyiségek, rendszerint a
populáció paramétereinek becslései.
Mivel valószínűségi változók függvényei, maguk is valószínűségi változók.
Becslés (Estimate)
Olyan statisztika, amely egyben a populáció valamely ismeretlen paramétere
közelítő értékének számítási formuláját is képezi.
Valószínűségeloszlás (Probability distribution)
A valószínűségi változó eloszlása az a törvényszerűség, amely szerint a
valószínűségi változó az értékeit felveszi.
Gyakorisági eloszlás (Frequency distribution)
Tapasztalati adatok, megfigyelések (egy valószínűségi változó
realizálódott értékei) meghatározott szempont szerint kialakított
csoportjai gyakoriságainak összessége.
Grafikus megjelenítése a hisztogram.
Hisztogram (Histogram)
A gyakorisági eloszlás egyik ábrázolási módja. Az adatok nagyság szerinti
csoportosításával kapott minden osztály fölé olyan téglalapot emelünk, melynek
területe arányos a megfelelő osztályba eső adatok számával vagy relatív
gyakoriságával.
Valószínűségeloszlás függvény (Cumulative probability distribution function)
X pontbeli értéke annak a valószínűségét adja meg, hogy a valószínűségi
változó értéke X-nél kisebb. A valószínűségi változó legfontosabb jellemzője.
(Jele: F(x))
Valószínűségsűrűség függvény (Probabilty distribution function)
Ha annak a valószínűsége, hogy egy X valószínűségi változó értéke egy
tetszőlegesen megadott intervallumba esik, megadható egy függvény görbéje
alatti területnek az intervallumba eső részével, akkor a függvényt az X
valószínűségi változó sűrűségfüggvényének nevezzük.
(Jele: f(x))
Ferdeség (Skewness)
Az eloszlásnak az a tulajdonsága, hogy nem szimmetrikus.
Ha az eloszlás (azaz sűrűségfüggvénye, hisztogramja) jobbra elnyúltabb,
jobbra ferdének (skewed to right), ha balra, akkor balra ferdének nevezzük
(skewed to left).
Csúcsosság (Kurtosis)
Relatív fogalom, azt jelzi, hogy az eloszlás az azonos középértékű
és szórású normális eloszlásnál jobban vagy kezvésbé tömörül.
Ha az eloszlás a normálisnál jobban tömörül, az eloszlást csúcsosnak
(leptokurtic), ellenkező esetben laposnak (platykurtic) nevezzük.
Várható érték (Expected value)
A populáció eloszlásának (elméleti) középértéke. Becslése a valószínűségi
változó(k függvényének) ismételt mintáiból számított középértékkel történik.
(Jele: mü)
Középérték (Mean)
A mintából számított átlaggal becsülhető, a várható érték becslése.
(Helyparaméter, measure of location). (Jele: X felülvonás)
Medián (Median)
Az a statisztika, amely a gyakorisági eloszlást két olyan részre osztja,
amely részekbe az értékek 50-50 %-a tartozik (a mediánnál nagyobb ill.
kisebb értékek előfordulási valószínűsége 1/2 - 1/2). (Helyparaméter).
Módusz (Mode)
A gyakorisági eloszlás legvalószínűbb (leggyakoribb) értéke.
Folytonos eloszlásnál a sűrűségfüggvény csúcsa.(Helyparaméter).
Kvantilis (Quantile)
A p-kvantilis az az Xp érték, amelyre p a valószínűsége annak, hogy a
valószínűségi változó értéke nála kisebb. Nevezetes kvantilisek a kvartilisek.
(Helyparaméter).
Kvartilis (Quartiles)
Az a statisztika, amely a gyakorisági eloszlást négy olyan részre
osztja, amely részekbe az értékek 1/4, 1/2, 3/4 része esik
(illetve azok a számok, amelyek alá az értékek 1/4, 1/2, 3/4
valószínűséggel esnek). A második kvartilis a medián.
(Helyparaméter).
Terjedelem (Range)
A minta legnagyobb és legkisebb elemének különbsége. A szóródás egyik
mérőszáma.
Interkvartilis terjedelem (Interquartile range)
Az első és harmadik kvartilis különbsége. Jele: IQR.
Variancia (Variance)
Statisztika, a szóródás egyik leggyakoribb mérőszáma,
"kvadratikus középérték". A középértéktől való eltérések
négyzetének középértéke. Torzítatlan becslése n elem
esetén a négyzetes eltérések összege (n-1)-el elosztva. (Szóródási paraméter).
(Jele: szigma-négyzet, a becslés jele s-négyzet)
Szórás (Standard deviation)
A variancia pozitív négyzetgyöke, a szóródás gyakran használt mérőszáma.
(Jele: s). (Szóródási paraméter).
Négyzetes eltérések (összege) (Sum of Squares: SS)
A középértéktől számított különbségek négyzeteinek összege
(additív tulajdonsága miatt a legtöbb teszt alapjául választott
statisztika (pl. variancia analízis)).
Közepes négyzetes eltérés (Mean square deviation)
Az adatok középértékétől vett eltérésnégyzetösszeg a szabadsági
fokok számával súlyozva (osztva). Ha az adatok szóródását csak
véletlen hibák okozzák, megegyezik a varianciával.
Szabadsági fok (Degrees of freedom (df), Freiheitsgrad (FG))
Egy jelenség leírására gyüjtött ill. számított adathalmaz által
tartalmazott információval kapcsolatos. Megadja, hogy az adathalmaz
konkrét értékeinek megismerését hány szabadon választható független
jellemző közlésével lehet egyenértékűnek tekinteni.
(Pl. ha az átlag körüli szóródást n adat jellemzi, (az x-vonás - x
különbségek), akkor a szabadsági fok n-1.
Variációs együttható (Coefficient of variation)
A szórás kifejezése az átlag százalékában:
CV = (s * 100) / X-vonás
Véletlen kísérlet (Random experiment)
Olyan kísérlet (általánosabb értelemben a megfigyelés is),
amelyek kimenetelét az általunk figyelembe vett feltételek nem határozzák
meg egyértelműen. Kimenetelei, a véletlen események, amelyek
bekövetkezését valószínűségeloszlásuk írja le.
Elemi esemény (Elementary event)
Valamely kísérlettel kapcsolatban a kísérlet lehetséges
kimeneteleit elemi eseménynek nevezzük.
Eseménytér (Sample space)
Az elemi események (a kísérlet összes lehetséges kimeneteleinek)
összessége.
A nagy számok törvénye (Law of large numbers)
A kísérletet igen sokszor, egymástól függetlenűl elvégezve,
a relatív gyakoriságok (az esemény gyakoriságának és a kísérletek
számának hányadosa) stabilitást mutatnak.
Z-pontszám (Z-score)
Standardizált pontszám, azt adja meg, hogy a minta egyedeihez tartozó mért
értékeik hány szórásnyira esnek az átlagtól, z = (xi-x-vonás) /s
Az x valószínűségi változó középértéke, x-vonás, szórása s.
Csebisev-tétel (Chebyshev's theorem)
A populációnak legalább (1-1/k^2) eleme tartozik a középérték k szórásnyi
környezetébe függetlenül a változó eloszlásától (k>1).
Akkor lép fel, amikor a vizsgált populáció egyedeinek a hányada megadott
tulajdonságú. Minden kétkimenetelű kisérletben (dichotóm valószínűségi
változó) a kísérletet n-szer elvégezve az egyik alternatíva
bekövetkezésének száma (x) binomális eloszlást követ.
P(x) annak valószínűsége, hogy a kísérletben éppen k-szor következik
be az egyik alternatíva
p(x) = ( )p^x q^(n-x), ahol q=1-p
Középértéke = np = m, szórása = np(1- p)
Poisson eloszlás (Poisson distribution)
Egy populációban igen kis arányban levő (p valószínűségű)
bizonyos tulajdonságú egyedek eloszlása, ha a kísérletek számát
(n) minden határon túl növeljük úgy, hogy az np =m állandó legyen.
Többnyire az idő vagy a tér adott intervallumában
előforduló eseményekről van szó. (A binomiális eloszlás határértéke.)
p(x) = mü^xe^-mü / x!
Normális (Gauss) eloszlás (Normal distribution)
A természetben akkor fordul elő, ha sok, egymástól független
(és az együttes hatáshoz képest kis hatású) tényező hatása összeadódik.
Sűrűségfüggvénye: f(x) = 1/szigma sqrt(2pi) e^(-(x-mü)^2 / 2szigma^2)
Standard normális eloszlás: középértéke = 0, szórása = 1.
Tetszőleges normális eloszlásról a z-transzformációval lehet áttérni a standard
normális eloszlásra.
Központi határeloszlás tétel (Central limit theorem)
Nagyszámú, független valószínűségi változó összege
aszimptotikusan normális eloszlású, ha az egyes valószínűségi
változók elég kicsik az összeghez képest. (Aszimptotikusan: ha a
valószínűségi változók egyre nagyobb számú összegének sorozatát vesszük.)
Minta eloszlás (Sampling distribution)
A mintából számított statisztika (mint valószínűségi változó) elméleti
valószínűségeloszlása. Akkor állna elő, ha egy adott méretű mintát minden
lehetséges módon kiválasztva a populációból, mindannyiszor kiszámítanánk a
statisztikát. A statisztikai következtetés alapja, ismerete szükséges
a becslés minősítéséhez, azaz a becslés hibájának jellemzéséhez.
Pontbecslés (Point estimation)
Paraméterbecslés, a becslés egyetlen mintán alapszik
(egyetlen becslést ad a paraméterre). Pontosságát a mintaeloszlás
alapján állapíthatjuk meg.
Intervallumbecslés (Interval estimation)
Paraméterbecslés, az ismeretlen paraméterre intervallumot állapítunk meg
(konfidencia intervallum).
A becslések tulajdonságai:
Torzítatlan becslés (Unbiased estimate)
A becslés elméleti középértéke minden mintaelemszám esetén éppen a
keresett paraméter.
Hatásos becslés (Efficient estimation)
A becslésnek a paramétertől való közepes négyzetes eltérése minimális.
Két egyaránt torzítatlan becslés közül az a hatásosabb, amelyre a közepes
négyzetes eltérés a kisebb.
Konzisztens becslés (Consistent estimate)
Becsléssorozat, amelyben a becslések torzítatlanok és közepes négyzetes
eltérésük a zérushoz közeledik (sztochasztikusan konvergál) a paraméter
valódi értékéhez, azaz zérus valószínűséggel fordul elő, hogy a becslés
hibája adott hibahatárnál nagyobb legyen).
Elégséges becslés (Sufficient estimation)
Olyan becslés, amely az összes információt tartalmazza a paraméterre,
amit a mintából kaphatunk. (Pl. a normális eloszlásra középérték és a
szórás elégséges statisztika).
Maximum likelihood módszer (Maximum likelihood method)
Az egyik legáltalánosabb módszer a paraméter optimális becslésének
kiválasztására. A paramétert azzal az értékkel becsüljük, amely ha a paraméter
valódi értéke volna, a kapott n-elemű minta bekövetkezése lenne a
legvalószínűbb az összes lehetséges n-elemű minták közül. Az adott
minta valószínűségét leíró likelihood függvény maximumát keressük.
Legkisebb négyzetek módszere (Least squares method)
Szintén gyakran alkalmazott becslési módszer, minimalizálja
a paraméter valódi és becsült értéke közötti eltérésnégyzetösszeget.
Konfidencia intervallum (Confidence interval)
Olyan becslési intervallum, amely az ismeretlen paraméter értékét
előre megadott valószínűséggel (konfidenciaszint) lefedi.
Végpontjai a konfidencia határok. Ha a becsült paraméter a,
a becslés a-vonás, a szignifikanciaszint 1-p, ahol p tetszőleges,
de általában 0.05, 0.01, 0.001, akkor a [-d, d] konfidencia intervallum:
P ( -d < a - a-vonás < d) = P (a-vonás - d < a < a-vonás + d) = 1-p
Statisztikai hipotézis (Statistical hypothesis)
A mintáról a populációra való statisztikai következtetésnek
(a paraméterbecslés mellett) második fontos módszere az az eljárás,
amelynek során a populációra vonatkozó valamilyen feltételezést a
mintaelemek alapján statisztikai próbával ellenőrízzük.
Az ilyen feltételezések a statisztikai hipotézisek.
Nullhipotézis (Null hypothesis)
(Alaphipotézis, próbahipotézis) az a hipotézis, amelyet a
statisztikai próbával előre megadott szignifikancia szinten
vizsgálunk. Jele: H0
Alternatív hipotézis (Alternative hypothesis)
(Ellenhipotézis) felöleli a populáció részben ismeretlen
eloszlására vonatkozó összes (a feltevés keretében megengedett)
lehetőséget arra az esetre, ha a nullhipotézis nem helyes. Jele: H1
Szignifikancia szint (Significance level)
Valamely statisztikai próbához előre megadott valószínűségérték,
az ennél kisebb valószínűséggel bekövetkező eseményeket a véletlennek
(és nem a vizsgált szisztematikus hatásnak) tulajdonítjuk. Jele: alfa.
Elsőfajú hiba (Type I. error, type a error)
Valamely nullhipotézis statisztikai próbával végzett
vizsgálatában az a hiba, amelyet a nullhipotézis elutasítása jelent
amikor az igaz. Valószínűsége az elsőfajú kockázat (alfa).
Másodfajú hiba (Type II. error, type beta error)
Az a hibás döntés, hogy nem vetjük el a helytelen nullhipotézist
abban az esetben, amikor az alternatív hipotézis igaz.
A próba közvetlenül nem ellenőrzi, ezért ha a próba nem utasítja el a
nullhipotézist, ez még nem jelenti azt, hogy a nullhipotézist
megfelelő statisztikai biztonsággal elfogadhatjuk. Valószínűsége a másodfajú
kockázat (béta).
Statisztikai próba (Statistical test)
Olyan eljárás, amely valamilyen statisztikai hipotézisnek,
azaz egy vagy több, a populációra vonatkozó valamilyen feltevésnek
az ellenőrzését teszi lehetővé a populációból vett minta alapján.
A próba abban áll, hogy a megfigyelésekből számított valamilyen
próbastatisztika segítségével eldöntjük, hogy a nullhipotézist el
kell-e utasítani s ezáltal az alternatív hipotézist elfogadni, vagy nem.
Paraméteres próba (Parametric test)
Valamely paraméteres hipotézist ellenőrzi, feltételezést igényel a változók
eloszlástipusára vonatkozólag (amely feltételezést a próbában nem vizsgáljuk).
Nemparaméteres próba (Nonparametric test)
Hipotézisvizsgálat, amelynél a próbastatisztika eloszlása a
nullhipotézis esetén független az alapeloszlástól (a változók eloszlásától).
A próba ereje (Power of the test)
Az a valószínűség, amellyel a nullhipotézist elutasítjuk,
amikor az alternatív hipotézis teljesül. Minél nagyobb a próba ereje,
annál jobban szétválasztja a H0 és H1 hipotéziseket. Jele: 1-beta.
Regresszió (Regression)
Két (vagy több) véletlen változó regressziós kapcsolata,
Y = f(Xi) akkor írható fel, ha az Y függő változó két komponensből áll:
egy determinisztikus (szisztematikus), az Xi-ktől (független változóktól)
függő részből és egy véletlen komponensből (reziduális rész),
továbbá, ha ez utóbbi középértéke zérus. Ha i>1, többszörös
regresszióról beszélünk.
Korrelációs együttható (Coefficient of correlation)
Két véletlen változó lineáris (sztochasztikus) kapcsolatának,
függőségének mértéke, (jele r).
($$ képlet)
A 1 ill. -1 teljes negatív ill. pozitív függőséget jelent.