-
Értékeit ismeretlen vagy nem kontrollált ("véletlen")
okok is befolyásolják. Csak azt lehet megmondani, hogy egyes
értékei milyen valószínûséggel
esnek egy adott intervallumba.
-
Valószínûség (Probability) (részletes
tárgyalása)
-
Egy véletlen esemény bekövetkezésének
(a valószínûségi változó egy adott
értéke megvalósulásának) gyakoriságára
jellemzõ számérték, a relatív gyakoriságok
határértéke. (szemléletes, köznapi jelentés)
-
Véletlen események összességén definiált
függvény (mérték), az A eseményhez a p(A)
(0 és 1 közötti) számot rendeli (valószínûségelméleti,
axiomatikus definíció).
-
Feltételes valószínûség (Conditional
probability)
-
Az A eseménynek olyan módon számított valószínûsége,
hogy figyelembe vesszük az A-val kapcsolatos B esemény bekövetkezését.
Jele: p(A | B). p(A | B) = p(A ^ B) / p(B), ahol p(A ^ B) az A és
B esemény együttes bekövetkezésének valószínûsége.
-
Statisztika (Statistics)
-
A mintából (megfigyelési adatokból) számított
mennyiségek, rendszerint a populáció paramétereinek
becslései. Mivel valószínûségi változók
függvényei, maguk is valószínûségi
változók.
-
Becslés (Estimate)
-
Olyan statisztika, amely egyben a populáció valamely ismeretlen
paramétere közelítõ értékének
számítási formuláját is képezi.
-
Valószínûségeloszlás (Probability distribution)
-
A valószínûségi változó eloszlása
az a törvényszerûség, amely szerint a valószínûségi
változó az értékeit felveszi.
-
Gyakorisági eloszlás (Frequency distribution)
-
Tapasztalati adatok, megfigyelések (egy valószínûségi
változó realizálódott értékei)
meghatározott szempont szerint kialakított csoportjai gyakoriságainak
összessége.
Grafikus megjelenítése a hisztogram.
-
Hisztogram (Histogram)
-
A gyakorisági eloszlás egyik ábrázolási
módja. Az adatok nagyság szerinti csoportosításával
kapott minden osztály fölé olyan téglalapot emelünk,
melynek területe arányos a megfelelõ osztályba
esõ adatok számával vagy relatív gyakoriságával.
-
Valószínûségeloszlás függvény
(Cumulative probability distribution function)
-
X pontbeli értéke annak a valószínûségét
adja meg, hogy a valószínûségi változó
értéke X-nél kisebb. A valószínûségi
változó legfontosabb jellemzõje. (Jele: F(x))
-
Valószínûségsûrûség függvény
(Probabilty distribution function)
-
Ha annak a valószínûsége, hogy egy X valószínûségi
változó értéke egy tetszõlegesen megadott
intervallumba esik, megadható egy függvény görbéje
alatti területnek az intervallumba esõ részével,
akkor a függvényt az X valószínûségi
változó sûrûségfüggvényének
nevezzük. (Jele: f(x))
-
Ferdeség (Skewness)
-
Az eloszlásnak az a tulajdonsága, hogy nem szimmetrikus.
Ha az eloszlás (azaz sûrûségfüggvénye,
hisztogramja) jobbra elnyúltabb, jobbra ferdének (skewed
to right), ha balra, akkor balra ferdének nevezzük (skewed
to left).
-
Csúcsosság (Kurtosis)
-
Relatív fogalom, azt jelzi, hogy az eloszlás az azonos középértékû
és szórású normális eloszlásnál
jobban vagy kezvésbé tömörül. Ha az eloszlás
a normálisnál jobban tömörül, az eloszlást
csúcsosnak (leptokurtic), ellenkezõ esetben laposnak (platykurtic)
nevezzük.
-
Várható érték (Expected value)
-
A populáció eloszlásának (elméleti)
középértéke. Becslése a valószínûségi
változó(k függvényének) ismételt
mintáiból számított középértékkel
történik. (Jele: mü)
-
Középérték (Mean)
-
A mintából számított átlaggal becsülhetõ,
a várható érték becslése. (Helyparaméter,
measure of location). (Jele: X felülvonás)
-
Medián (Median)
-
Az a statisztika, amely a gyakorisági eloszlást két
olyan részre osztja, amely részekbe az értékek
50-50 %-a tartozik (a mediánnál nagyobb ill. kisebb értékek
elõfordulási valószínûsége 1/2
- 1/2). (Helyparaméter).
-
Módusz (Mode)
-
A gyakorisági eloszlás legvalószínûbb
(leggyakoribb) értéke. Folytonos eloszlásnál
a sûrûségfüggvény csúcsa.(Helyparaméter).
-
Kvantilis (Quantile)
-
A p-kvantilis az az Xp érték, amelyre p a valószínûsége
annak, hogy a valószínûségi változó
értéke nála kisebb. Nevezetes kvantilisek a kvartilisek.
(Helyparaméter).
-
Kvartilis (Quartiles)
-
Az a statisztika, amely a gyakorisági eloszlást négy
olyan részre osztja, amely részekbe az értékek
1/4, 1/2, 3/4 része esik (illetve azok a számok, amelyek
alá az értékek 1/4, 1/2, 3/4 valószínûséggel
esnek). A második kvartilis a medián. (Helyparaméter).
-
Terjedelem (Range)
-
A minta legnagyobb és legkisebb elemének különbsége.
A szóródás egyik mérõszáma.
-
Interkvartilis terjedelem (Interquartile range)
-
Az elsõ és harmadik kvartilis különbsége.
Jele: IQR.
-
Variancia (Variance)
-
Statisztika, a szóródás egyik leggyakoribb mérõszáma,
"kvadratikus középérték". A középértéktõl
való eltérések négyzetének középértéke.
Torzítatlan becslése n elem esetén a négyzetes
eltérések összege (n-1)-el elosztva. (Szóródási
paraméter). (Jele: szigma-négyzet, a becslés jele
s-négyzet)
-
Szórás (Standard deviation)
-
A variancia pozitív négyzetgyöke, a szóródás
gyakran használt mérõszáma. (Jele: s). (Szóródási
paraméter).
-
Négyzetes eltérések (összege) (Sum of Squares:
SS)
-
A középértéktõl számított
különbségek négyzeteinek összege (additív
tulajdonsága miatt a legtöbb teszt alapjául választott
statisztika (pl. variancia analízis)).
-
Közepes négyzetes eltérés (Mean square deviation)
-
Az adatok középértékétõl vett eltérésnégyzetösszeg
a szabadsági fokok számával súlyozva (osztva).
Ha az adatok szóródását csak véletlen
hibák okozzák, megegyezik a varianciával.
-
Szabadsági fok (Degrees of freedom (df), Freiheitsgrad (FG))
-
Egy jelenség leírására gyüjtött ill.
számított adathalmaz által tartalmazott információval
kapcsolatos. Megadja, hogy az adathalmaz konkrét értékeinek
megismerését hány szabadon választható
független jellemzõ közlésével lehet egyenértékûnek
tekinteni. (Pl. ha az átlag körüli szóródást
n adat jellemzi, (az x-vonás - x különbségek),
akkor a szabadsági fok n-1.
-
Variációs együttható (Coefficient of variation)
-
A szórás kifejezése az átlag százalékában:
CV = (s * 100) / X-vonás
-
Véletlen kísérlet (Random experiment)
-
Olyan kísérlet (általánosabb értelemben
a megfigyelés is), amelyek kimenetelét az általunk
figyelembe vett feltételek nem határozzák meg egyértelmûen.
Kimenetelei, a véletlen események, amelyek bekövetkezését
valószínûségeloszlásuk írja le.
-
Elemi esemény (Elementary event)
-
Valamely kísérlettel kapcsolatban a kísérlet
lehetséges kimeneteleit elemi eseménynek nevezzük.
-
Eseménytér (Sample space)
-
Az elemi események (a kísérlet összes lehetséges
kimeneteleinek) összessége.
-
A nagy számok törvénye (Law of large numbers)
-
A kísérletet igen sokszor, egymástól függetlenûl
elvégezve, a relatív gyakoriságok (az esemény
gyakoriságának és a kísérletek számának
hányadosa) stabilitást mutatnak.
-
Z-pontszám (Z-score)
-
Standardizált pontszám, azt adja meg, hogy a minta egyedeihez
tartozó mért értékeik hány szórásnyira
esnek az átlagtól, z = (xi-x-vonás) /s Az x valószínûségi
változó középértéke, x-vonás,
szórása s.
-
Csebisev-tétel (Chebyshev's theorem)
-
A populációnak legalább (1-1/k^2) eleme tartozik a
középérték k szórásnyi környezetébe
függetlenül a változó eloszlásától
(k>1).
-
Binomiális eloszlás (Bernoulli eloszlás)(Binomial
distribution)
-
Akkor lép fel, amikor a vizsgált populáció
egyedeinek a hányada megadott tulajdonságú. Minden
kétkimenetelû kisérletben (dichotóm valószínûségi
változó) a kísérletet n-szer elvégezve
az egyik alternatíva bekövetkezésének száma
(x) binomális eloszlást követ. P(x) annak valószínûsége,
hogy a kísérletben éppen k-szor következik be
az egyik alternatíva
p(x) = ( )p^x q^(n-x), ahol q=1-p
Középértéke = np = m, szórása
= np(1- p)
-
Poisson eloszlás (Poisson distribution)
-
Egy populációban igen kis arányban levõ (p
valószínûségû) bizonyos tulajdonságú
egyedek eloszlása, ha a kísérletek számát
(n) minden határon túl növeljük úgy, hogy
az np =m állandó legyen. Többnyire az idõ vagy
a tér adott intervallumában elõforduló eseményekrõl
van szó. (A binomiális eloszlás határértéke.)
p(x) = mü^xe^-mü / x!
-
Normális (Gauss) eloszlás (Normal distribution)
-
A természetben akkor fordul elõ, ha sok, egymástól
független (és az együttes hatáshoz képest
kis hatású) tényezõ hatása összeadódik.
Sûrûségfüggvénye: f(x) = 1/szigma sqrt(2pi)
e^(-(x-mü)^2 / 2szigma^2)
Standard normális eloszlás: középértéke
= 0, szórása = 1. Tetszõleges normális eloszlásról
a z-transzformációval lehet áttérni a standard
normális eloszlásra.
-
Központi határeloszlás tétel (Central limit theorem)
-
Nagyszámú, független valószínûségi
változó összege aszimptotikusan normális eloszlású,
ha az egyes valószínûségi változók
elég kicsik az összeghez képest. (Aszimptotikusan: ha
a valószínûségi változók egyre
nagyobb számú összegének sorozatát vesszük.)
-
Minta eloszlás (Sampling distribution)
-
A mintából számított statisztika (mint valószínûségi
változó) elméleti valószínûségeloszlása.
Akkor állna elõ, ha egy adott méretû mintát
minden lehetséges módon kiválasztva a populációból,
mindannyiszor kiszámítanánk a statisztikát.
A statisztikai következtetés alapja, ismerete szükséges
a becslés minõsítéséhez, azaz a becslés
hibájának jellemzéséhez.
-
Pontbecslés (Point estimation)
-
Paraméterbecslés, a becslés egyetlen mintán
alapszik (egyetlen becslést ad a paraméterre). Pontosságát
a mintaeloszlás alapján állapíthatjuk meg.
-
Intervallumbecslés (Interval estimation)
-
Paraméterbecslés, az ismeretlen paraméterre intervallumot
állapítunk meg (konfidencia intervallum).
-
A becslések tulajdonságai:
-
Torzítatlan becslés (Unbiased estimate)
-
A becslés elméleti középértéke
minden mintaelemszám esetén éppen a keresett paraméter.
-
Hatásos becslés (Efficient estimation)
-
A becslésnek a paramétertõl való közepes
négyzetes eltérése minimális. Két egyaránt
torzítatlan becslés közül az a hatásosabb,
amelyre a közepes négyzetes eltérés a kisebb.
-
Konzisztens becslés (Consistent estimate)
Becsléssorozat, amelyben a becslések torzítatlanok
és közepes négyzetes eltérésük a
zérushoz közeledik (sztochasztikusan konvergál) a paraméter
valódi értékéhez, azaz zérus valószínûséggel
fordul elõ, hogy a becslés hibája adott hibahatárnál
nagyobb legyen).
-
Elégséges becslés (Sufficient estimation)
-
Olyan becslés, amely az összes információt tartalmazza
a paraméterre, amit a mintából kaphatunk. (Pl. a normális
eloszlásra középérték és a szórás
elégséges statisztika).
-
Maximum likelihood módszer (Maximum likelihood method)
-
Az egyik legáltalánosabb módszer a paraméter
optimális becslésének kiválasztására.
A paramétert azzal az értékkel becsüljük,
amely ha a paraméter valódi értéke volna, a
kapott n-elemû minta bekövetkezése lenne a legvalószínûbb
az összes lehetséges n-elemû minták közül.
Az adott minta valószínûségét leíró
likelihood függvény maximumát keressük.
-
Legkisebb négyzetek módszere (Least squares method)
-
Szintén gyakran alkalmazott becslési módszer, minimalizálja
a paraméter valódi és becsült értéke
közötti eltérésnégyzetösszeget.
-
Konfidencia intervallum (Confidence interval)
-
Olyan becslési intervallum, amely az ismeretlen paraméter
értékét elõre megadott valószínûséggel
(konfidenciaszint) lefedi. Végpontjai a konfidencia határok.
Ha a becsült paraméter a, a becslés a-vonás,
a szignifikanciaszint 1-p, ahol p tetszõleges, de általában
0.05, 0.01, 0.001, akkor a [-d, d] konfidencia intervallum:
P ( -d < a - a-vonás < d) = P (a-vonás - d <
a < a-vonás + d) = 1-p
-
Statisztikai hipotézis (Statistical hypothesis)
-
A mintáról a populációra való statisztikai
következtetésnek (a paraméterbecslés mellett)
második fontos módszere az az eljárás, amelynek
során a populációra vonatkozó valamilyen feltételezést
a mintaelemek alapján statisztikai próbával ellenõrízzük.
Az ilyen feltételezések a statisztikai hipotézisek.
-
Nullhipotézis (Null hypothesis)
-
(Alaphipotézis, próbahipotézis) az a hipotézis,
amelyet a statisztikai próbával elõre megadott szignifikancia
szinten vizsgálunk. Jele: H0
-
Szignifikancia szint (Significance level)
-
Valamely statisztikai próbához elõre megadott valószínûségérték,
az ennél kisebb valószínûséggel bekövetkezõ
eseményeket a véletlennek (és nem a vizsgált
szisztematikus hatásnak) tulajdonítjuk. Jele: alfa.
-
Elsõfajú hiba (Type I. error, type a error)
-
Valamely nullhipotézis statisztikai próbával végzett
vizsgálatában az a hiba, amelyet a nullhipotézis elutasítása
jelent amikor az igaz. Valószínûsége az elsõfajú
kockázat (alfa).
-
Másodfajú hiba (Type II. error, type beta error)
-
Az a hibás döntés, hogy nem vetjük el a helytelen
nullhipotézist abban az esetben, amikor az alternatív hipotézis
igaz. A próba közvetlenül nem ellenõrzi, ezért
ha a próba nem utasítja el a nullhipotézist, ez még
nem jelenti azt, hogy a nullhipotézist megfelelõ statisztikai
biztonsággal elfogadhatjuk. Valószínûsége
a másodfajú kockázat (béta).
-
Statisztikai próba (Statistical test)
-
Olyan eljárás, amely valamilyen statisztikai hipotézisnek,
azaz egy vagy több, a populációra vonatkozó valamilyen
feltevésnek az ellenõrzését teszi lehetõvé
a populációból vett minta alapján. A próba
abban áll, hogy a megfigyelésekbõl számított
valamilyen próbastatisztika segítségével eldöntjük,
hogy a nullhipotézist el kell-e utasítani s ezáltal
az alternatív hipotézist elfogadni, vagy nem.
-
Paraméteres próba (Parametric test)
-
Valamely paraméteres hipotézist ellenõrzi, feltételezést
igényel a változók eloszlástipusára
vonatkozólag (amely feltételezést a próbában
nem vizsgáljuk).
-
Nemparaméteres próba (Nonparametric test)
-
Hipotézisvizsgálat, amelynél a próbastatisztika
eloszlása a nullhipotézis esetén független az
alapeloszlástól (a változók eloszlásától).
-
A próba ereje (Power of the test)
-
Az a valószínûség, amellyel a nullhipotézist
elutasítjuk, amikor az alternatív hipotézis teljesül.
Minél nagyobb a próba ereje, annál jobban szétválasztja
a H0 és H1 hipotéziseket. Jele: 1-beta.
-
Regresszió (Regression)
-
Két (vagy több) véletlen változó regressziós
kapcsolata, Y = f(Xi) akkor írható fel, ha az Y függõ
változó két komponensbõl áll: egy determinisztikus
(szisztematikus), az Xi-ktõl (független változóktól)
függõ részbõl és egy véletlen komponensbõl
(reziduális rész), továbbá, ha ez utóbbi
középértéke zérus. Ha i>1, többszörös
regresszióról beszélünk.
-
Korrelációs együttható (Coefficient of correlation)
-
Két véletlen változó lineáris (sztochasztikus)
kapcsolatának, függõségének mértéke,
(jele r).
(Képlete készülõben)
A 1 ill. -1 teljes negatív ill. pozitív függõséget
jelent.