A leíró statisztikák
-
A leíró statisztikák fogalma, haszna
-
A statisztikák fogalma általában
-
Leíró statisztikák:
-
a minta elemszáma (mintanagyság)
-
maximum
-
minimum
-
mintaterjedelem
-
számtani átlag
-
szórás
-
variancia
-
variációs koefficiens
-
rendezett minta
-
kvantilisek
-
medián
-
kvartilisek
-
percentilisek
-
interkvartilis terjedelem
-
korrelációs együttható
-
rang
-
rangkorreláció
A leíró statisztikák fogalma, haszna
Gyakori igény az, hogy egy adathalmazt elemei egyenkénti
felsorolása helyett néhány jellemzõ tulajdonságának
megadásával jellemezzünk. Ezeket az adatokból
viszonylag könnyen kiszámítható paramétereket
leíró
statisztikáknak (vagy ritkán, de pontosabban: leíró
statisztikai függvényeknek) nevezzük. Sok ilyen van, két
legfontosabb csoportjuk az ún.
elhelyezkedési (measures
of location or central tendency) és a szóródást
jellemzõ paraméterek (measures of spread). Az elhelyezkedési
paraméterek azt az értéket igyekeznek megadni, ami
körül a mintánk elemei csoportosulnak (ilyen pl. átlag,
medián) míg a szóródási paraméterek
azt igyekeznek jellemezni, hogy értékeink mennyire szorosan
vagy lazán helyezkednek el ekörül a pont körül
(pl. szórás).
Elõfordul, hogy a minta elemeirõl nem csak egyfajta adattal
rendelkezünk. Kétféle adat esetén, így
összetartozó értékpárok jönnek létre
(pl. emberek mintájában a testsúly és testmagasság).
Az értékpárok közötti összefüggésrõl
adnak információt a kapcsolatot jellemzõ paraméterek
(measures of correlation).
A legfontosabb leíró statisztikák
Elhelyezkedést |
Szóródást |
Kapcsolatot |
jellemzõ statisztikák |
átlag |
szórás
(tapasztalati) |
korrelációs együttható
(r, r2) |
medián |
interkvartilis terjedelem |
rangkorreláció |
A leíró statisztikák közül azok a legfontosabbak,
amelyek a mintánkat adó populáció elméleti
eloszlásfüggvényének valamelyik paraméterére
adnak jó becslést a mintánkból. A leíró
statisztikák gyakorlati alkalmazhatóságának
ez az elméleti alapja. Itt csak annyit jegyzünk meg, hogy pl.
a mintánkból meghatározott számtani átlag
a populáció eloszlásfüggvényének
várható értékére ad ->torzítatlan
becslést. A mintából számított (ún.
tapasztalati) szórás pedig a populáció eloszlásfüggvényét
jellemzõ (ún. elméleti) szórás paraméter
becslését adja.
A képet tovább bonyolítja, hogy a statisztikák
a minta választásának esetlegessége miatt maguk
is valószínûségi változók, melyeknek
meghatározható az eloszlásfüggvénye, sõt
ennek paraméterei becsülhetõk, éspedig ismét
valamilyen statisztikával. Ezt a következõ példán
illusztrálhatjuk. Nagyon gyakori, hogy összekeverik a mintából
számított tapasztalati szórást (SD) az ugyancsak
a mintából számítható 'átlag
szórása' (standard error of the mean, SE) nevû paraméterrel.
Sokan úgy gondolják, hogy a kettõ lényegében
ugyanaz, csak éppen az SE kisebb, mint az SD, ezért jobban
fest a grafikonokon. Valójában az SE a mintaátlag
(mint statisztika) elméleti eloszlásfüggvénye
ismeretlen szórásparaméterének a becslése.
Azt is mondhatjuk, hogy az SD egyszerû statisztika, az SE pedig egy
statisztika statisztikája, tehát egy fokkal bonyolultabb
fogalom.
A statisztikák fogalma általában
Matematikailag statisztikai függvénynek vagy röviden
statisztikának
neveznek minden olyan (rendszerint skaláris, olykor vektorértékû)
függvényt, amelynek értelmezési tartománya
a mintatér. (Magyarul statisztika az, ami az adatainkból
egy képlettel kiszámítható, vagy más
módon meghatározható.) Az említett leíró
statisztikákon kívül igen fontosak még a hipotézisvizsgálatoknál
használt statisztikák (pl. t, F statisztika).
Hipotézisvizsgálathoz használt statisztikák
-> hipotézisvizsgálatok
A leíró statisztikák
Az alább ismertetett statisztikák java része csak
numerikus skálájú adatokon értelmezhetõ.
Zárójelben megadtuk a kérdéses szakkifejezés
angol megfelelõjét is.
-
A minta elemszáma (mintanagyság, sample size)
-
Ez a legegyszerûbb, s egyben egyik legfontosabb leíró
statisztika. Rendszerint n betûvel jelöljük (latin numerus=szám).
-
Maximum
-
A legnagyobb elõforduló számérték.
-
Minimum
-
A legkisebb elõforduló számérték.
-
Mintaterjedelem (range)
-
A legnagyobb (maximum) és legkisebb (minimum) elõforduló
számérték különbsége. Akkor használjuk
csak, ha hangsúlyozni kívánjuk a mintánkban
elõforduló extrém értékeket (vagy éppen
ellenkezõleg, az igen kicsi szóródást).
-
Számtani átlag (mean, arithmetic mean)
-
Az értékek összege, osztva az elemszámmal. A
legjobban ismert, leggyakrabban használt paraméter az eloszlás
elhelyezkedésének becslésére. Érdemes
tudni, hogy erõsen érzékeny a mintában esetleg
elõforduló kilógó (outlier) értékekre.
Ilyenkor célszerûbb a medián használata. Ugyancsak
félrevezetõ lehet az átlag erõsen ferde eloszlás
esetén.
-
Variancia, tapasztalati szórásnégyzet (variance)
-
Az adatoknak az átlagtól való négyzetes eltéréseinek
átlaga (pontosabban az elemszám helyett n-1-gyel szokás
osztani a torzítatlan becslés
érdekében.). (latin variantia = különbözõség)
Bár az elméleti statisztikában fontos fogalom, a gyakorlatban
helyette az SD használatos.
-
Szórás, tapasztalati szórás (standard deviation)
-
A variancia négyzetgyöke. Jelölésére az
angol kifejezés rövidítését (SD) használjuk.
Mint fentebb említettük, nem tévesztendõ össze
az átlag szórásával (SE vagy SEM = standard
error of the mean). Az SD a legfontosabb, adataink szóródását
jellemzõ paraméter. Fontos tudnunk azonban, hogy értéke
függ adataink mértékegységétõl,
így két adathalmaz szórása csak akkor hasonlítható
össze, ha ugyanazt a mértékegységet használtuk.
Egységfüggetlen mérõszám viszont a következõ
statisztika.
-
Variációs koefficiens (coefficient of variation, CV)
-
A szórás százalékos aránya az átlaghoz
viszonyítva. Méréskor ez nem más, mint a relatív
hiba. Dimenzió nélküli szám, bármely adathalmaz
variációs koefficiense összehasonlítható.
-
Rendezett minta
-
Az eredeti minta, az elõforduló értékek nagysága
szerint sorba rendezve. (pl. egy iskolai osztály a tornasorban,
ha a tanulók magasságát vizsgáljuk). Önmagában
nem használjuk, de több fontos további statisztika meghatározásához
nélkülözhetetlen. Ilyenek pl. a következõkben
ismertetendõ kvantilisek. A rendezett minta és a belõle
származtatott további statisztikák értelmezéséhez
nem szükséges, hogy adataink numerikusak legyenek, elég,
ha ordinális skálán mérhetõk.
Kvantilisek: (quantiles) A rendezett mintából tovább
származtatott statisztikák összefoglaló neve,
amikor a rendezett mintát több egyenlõ részre
osztjuk, és a részhatárokon levõ mintaelemek
értékét tekintjük. (latin quantum = mennyi, ti.
hány részre osztjuk a mintát)
-
Medián (median)
-
A medián (latin medius = középsõ) annak az adatnak
a számértéke, amelyik a rendezett minta közepén
van (pl. egy iskolai osztályban a magasságértékek
mediánja a tornasor közepén álló tanuló
magassága). Mint említettük, jó tulajdonsága,
hogy sokkal kevésbé érzékeny a kilógó
(outlier) értékekre, mint az átlag, továbbá
ferde eloszlások esetén is használhatóbb. Ordinális
skála esetén az átlag értelmezhetetlen, míg
a medián igen.
-
Kvartilisek (quartiles)
-
Az alsó kvartilis (latin quarta pars = negyedrész) a legkisebb
és a medián között középen elhelyezkedõ
adat számértéke a rendezett mintában. (A tornasorban
a legkisebb és a középsõ diák között
középen levõ tanuló magassága).
-
A felsõ kvartilis hasonlóan a medián és a legnagyobb
érték között van középen. A kvartilisek
az SD-hez hasonlóan az adatok szóródásáról
tájékoztatnak, elsõsorban ferde eloszlás esetén
érdemes õket használni. (A kvartilisek mutatják
a ferdeséget, az SD nem).
-
Percentilisek (percentiles)
-
Ha elég adatunk van, akkor percentilisek is definiálhatók.
(latin per centum = százalék) Pl. az n%-os (vagy n-edik)
percentilis azt jelenti, hogy az adatok n%-a kisebb, mint ez az érték.
(Így a medián az 50%-os percentilisnek, az alsó és
felsõ kvartilisek pedig a 25% ill. 75%-os percentilisnek felelnek
meg.) A percentiliseknek óriási jelentõsége
van a 'mit tekintünk normálisnak?' kérdés eldöntésében.
Az alsó és felsõ néhány percentilis
közötti részt (2.5% - 97.5% vagy 5% - 95%) szokás
normális (referencia) értéknek elfogadni. Akkor szokás
pl. egy gyermekrõl feltételezni, hogy elmaradt a növekedésben,
ha magassága (vagy súlya) nem éri el az azonos korú
társaira jellemzõ 5%-os percentilis értéket.
A laboratóriumi normálértékeket is a megfelelõ
percentilisek alapján definiálják.
A percentilisek összessége valójában a tapasztalati
eloszlásnak felel meg. Ilyen alapon - ha tetszik - a tapasztalati
eloszlásfüggvényt (és az abból származtatott
dolgokat, pl. a hisztogramot) is tekinthetjük statisztikának.
-
Interkvartilis terjedelem (interquartile range)
-
A felsõ és alsó kvartilis különbsége.
Ugyanakkor használatos, amikor a kvartilis.
-
Korrelációs együttható (correlation coefficient)
-
Pearson féle korrelációs együtthatónak
is nevezik. Összetartozó értékpárok lineáris
kapcsolatát jellemzõ, dimenzió nélküli
szám. Kétféle módon adják meg: r a jele
a tulajdonképpeni korrelációs együtthatónak,
míg r2 (az elõbbi négyzete) hivatalos megnevezése:
coefficient of determination. A tökéletes pozitív lineáris
összefüggés esetén r = 1, tökéletes
negatív lineáris összefüggés esetén
r = -1, míg függetlenség esetén r = 0. A korrelációs
együtthatóval kapcsolatban gyakoriak a félreértések.
Ezek részletesen olvashatók a "Kapcsolat
változók között" címû fejezetben.
Fontos tudni, hogy a korrelációs együttható értéke
erõsen függ a kilógó értékektõl.
-
Rang (rank)
-
Ezt a statisztikát úgy kapjuk, ha a rendezett mintában
minden elem értékét a rendezésben elfoglalt
sorszámával helyettesítünk. Mint a rendezett
mintát, ezt a statisztikát sem önmagában használjuk,
hanem további statisztikákat származtatunk belõle.
-
Rangkorreláció (rank correlation)
-
A rangokból számított korrelációs együttható
(Spearman féle korrelációs együtthatónak
is nevezik). Akkor használjuk az eredeti Pearson féle korrelációs
együttható helyett, ha az adatpárok közül
legalább egy nem numerikus, hanem ordinális skálájú,
vagy ha az eloszlás nagyon ferde, esetleg kilógó értékek
vannak a mintában.