A leíró statisztikák


A leíró statisztikák fogalma, haszna

Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemzõ tulajdonságának megadásával jellemezzünk. Ezeket az adatokból viszonylag könnyen kiszámítható paramétereket leíró statisztikáknak (vagy ritkán, de pontosabban: leíró statisztikai függvényeknek) nevezzük. Sok ilyen van, két legfontosabb csoportjuk az ún. elhelyezkedési (measures of location or central tendency) és a szóródást jellemzõ paraméterek (measures of spread). Az elhelyezkedési paraméterek azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak (ilyen pl. átlag, medián) míg a szóródási paraméterek azt igyekeznek jellemezni, hogy értékeink mennyire szorosan vagy lazán helyezkednek el ekörül a pont körül (pl. szórás).
Elõfordul, hogy a minta elemeirõl nem csak egyfajta adattal rendelkezünk. Kétféle adat esetén, így összetartozó értékpárok jönnek létre (pl. emberek mintájában a testsúly és testmagasság). Az értékpárok közötti összefüggésrõl adnak információt a kapcsolatot jellemzõ paraméterek (measures of correlation).

A legfontosabb leíró statisztikák

Elhelyezkedést  Szóródást  Kapcsolatot 
jellemzõ statisztikák 
átlag szórás
(tapasztalati) 
korrelációs együttható
(r, r2
medián interkvartilis terjedelem rangkorreláció 
A leíró statisztikák közül azok a legfontosabbak, amelyek a mintánkat adó populáció elméleti eloszlásfüggvényének valamelyik paraméterére adnak jó becslést a mintánkból. A leíró statisztikák gyakorlati alkalmazhatóságának ez az elméleti alapja. Itt csak annyit jegyzünk meg, hogy pl. a mintánkból meghatározott számtani átlag a populáció eloszlásfüggvényének várható értékére ad ->torzítatlan becslést. A mintából számított (ún. tapasztalati) szórás pedig a populáció eloszlásfüggvényét jellemzõ (ún. elméleti) szórás paraméter becslését adja.

A képet tovább bonyolítja, hogy a statisztikák a minta választásának esetlegessége miatt maguk is valószínûségi változók, melyeknek meghatározható az eloszlásfüggvénye, sõt ennek paraméterei becsülhetõk, éspedig ismét valamilyen statisztikával. Ezt a következõ példán illusztrálhatjuk. Nagyon gyakori, hogy összekeverik a mintából számított tapasztalati szórást (SD) az ugyancsak a mintából számítható 'átlag szórása' (standard error of the mean, SE) nevû paraméterrel. Sokan úgy gondolják, hogy a kettõ lényegében ugyanaz, csak éppen az SE kisebb, mint az SD, ezért jobban fest a grafikonokon. Valójában az SE a mintaátlag (mint statisztika) elméleti eloszlásfüggvénye ismeretlen szórásparaméterének a becslése. Azt is mondhatjuk, hogy az SD egyszerû statisztika, az SE pedig egy statisztika statisztikája, tehát egy fokkal bonyolultabb fogalom.

A statisztikák fogalma általában

Matematikailag statisztikai függvénynek vagy röviden statisztikának neveznek minden olyan (rendszerint skaláris, olykor vektorértékû) függvényt, amelynek értelmezési tartománya a mintatér. (Magyarul statisztika az, ami az adatainkból egy képlettel kiszámítható, vagy más módon meghatározható.) Az említett leíró statisztikákon kívül igen fontosak még a hipotézisvizsgálatoknál használt statisztikák (pl. t, F statisztika).
Hipotézisvizsgálathoz használt statisztikák -> hipotézisvizsgálatok

A leíró statisztikák

Az alább ismertetett statisztikák java része csak numerikus skálájú adatokon értelmezhetõ. Zárójelben megadtuk a kérdéses szakkifejezés angol megfelelõjét is.
A minta elemszáma (mintanagyság, sample size)
Ez a legegyszerûbb, s egyben egyik legfontosabb leíró statisztika. Rendszerint n betûvel jelöljük (latin numerus=szám).
Maximum
A legnagyobb elõforduló számérték.
Minimum
A legkisebb elõforduló számérték.
Mintaterjedelem (range)
A legnagyobb (maximum) és legkisebb (minimum) elõforduló számérték különbsége. Akkor használjuk csak, ha hangsúlyozni kívánjuk a mintánkban elõforduló extrém értékeket (vagy éppen ellenkezõleg, az igen kicsi szóródást).
Számtani átlag (mean, arithmetic mean)
Az értékek összege, osztva az elemszámmal. A legjobban ismert, leggyakrabban használt paraméter az eloszlás elhelyezkedésének becslésére. Érdemes tudni, hogy erõsen érzékeny a mintában esetleg elõforduló kilógó (outlier) értékekre. Ilyenkor célszerûbb a medián használata. Ugyancsak félrevezetõ lehet az átlag erõsen ferde eloszlás esetén.
Variancia, tapasztalati szórásnégyzet (variance)
Az adatoknak az átlagtól való négyzetes eltéréseinek átlaga (pontosabban az elemszám helyett n-1-gyel szokás osztani a torzítatlan becslés érdekében.). (latin variantia = különbözõség) Bár az elméleti statisztikában fontos fogalom, a gyakorlatban helyette az SD használatos.
Szórás, tapasztalati szórás (standard deviation)
A variancia négyzetgyöke. Jelölésére az angol kifejezés rövidítését (SD) használjuk. Mint fentebb említettük, nem tévesztendõ össze az átlag szórásával (SE vagy SEM = standard error of the mean). Az SD a legfontosabb, adataink szóródását jellemzõ paraméter. Fontos tudnunk azonban, hogy értéke függ adataink mértékegységétõl, így két adathalmaz szórása csak akkor hasonlítható össze, ha ugyanazt a mértékegységet használtuk. Egységfüggetlen mérõszám viszont a következõ statisztika.
Variációs koefficiens (coefficient of variation, CV)
A szórás százalékos aránya az átlaghoz viszonyítva. Méréskor ez nem más, mint a relatív hiba. Dimenzió nélküli szám, bármely adathalmaz variációs koefficiense összehasonlítható.
Rendezett minta
Az eredeti minta, az elõforduló értékek nagysága szerint sorba rendezve. (pl. egy iskolai osztály a tornasorban, ha a tanulók magasságát vizsgáljuk). Önmagában nem használjuk, de több fontos további statisztika meghatározásához nélkülözhetetlen. Ilyenek pl. a következõkben ismertetendõ kvantilisek. A rendezett minta és a belõle származtatott további statisztikák értelmezéséhez nem szükséges, hogy adataink numerikusak legyenek, elég, ha ordinális skálán mérhetõk.
Kvantilisek: (quantiles) A rendezett mintából tovább származtatott statisztikák összefoglaló neve, amikor a rendezett mintát több egyenlõ részre osztjuk, és a részhatárokon levõ mintaelemek értékét tekintjük. (latin quantum = mennyi, ti. hány részre osztjuk a mintát)
Medián (median)
A medián (latin medius = középsõ) annak az adatnak a számértéke, amelyik a rendezett minta közepén van (pl. egy iskolai osztályban a magasságértékek mediánja a tornasor közepén álló tanuló magassága). Mint említettük, jó tulajdonsága, hogy sokkal kevésbé érzékeny a kilógó (outlier) értékekre, mint az átlag, továbbá ferde eloszlások esetén is használhatóbb. Ordinális skála esetén az átlag értelmezhetetlen, míg a medián igen.
Kvartilisek (quartiles)
Az alsó kvartilis (latin quarta pars = negyedrész) a legkisebb és a medián között középen elhelyezkedõ adat számértéke a rendezett mintában. (A tornasorban a legkisebb és a középsõ diák között középen levõ tanuló magassága).
A felsõ kvartilis hasonlóan a medián és a legnagyobb érték között van középen. A kvartilisek az SD-hez hasonlóan az adatok szóródásáról tájékoztatnak, elsõsorban ferde eloszlás esetén érdemes õket használni. (A kvartilisek mutatják a ferdeséget, az SD nem).
Percentilisek (percentiles)
Ha elég adatunk van, akkor percentilisek is definiálhatók. (latin per centum = százalék) Pl. az n%-os (vagy n-edik) percentilis azt jelenti, hogy az adatok n%-a kisebb, mint ez az érték. (Így a medián az 50%-os percentilisnek, az alsó és felsõ kvartilisek pedig a 25% ill. 75%-os percentilisnek felelnek meg.) A percentiliseknek óriási jelentõsége van a 'mit tekintünk normálisnak?' kérdés eldöntésében. Az alsó és felsõ néhány percentilis közötti részt (2.5% - 97.5% vagy 5% - 95%) szokás normális (referencia) értéknek elfogadni. Akkor szokás pl. egy gyermekrõl feltételezni, hogy elmaradt a növekedésben, ha magassága (vagy súlya) nem éri el az azonos korú társaira jellemzõ 5%-os percentilis értéket. A laboratóriumi normálértékeket is a megfelelõ percentilisek alapján definiálják.

A percentilisek összessége valójában a tapasztalati eloszlásnak felel meg. Ilyen alapon - ha tetszik - a tapasztalati eloszlásfüggvényt (és az abból származtatott dolgokat, pl. a hisztogramot) is tekinthetjük statisztikának.
Interkvartilis terjedelem (interquartile range)
A felsõ és alsó kvartilis különbsége. Ugyanakkor használatos, amikor a kvartilis.
Korrelációs együttható (correlation coefficient)
Pearson féle korrelációs együtthatónak is nevezik. Összetartozó értékpárok lineáris kapcsolatát jellemzõ, dimenzió nélküli szám. Kétféle módon adják meg: r a jele a tulajdonképpeni korrelációs együtthatónak, míg r2 (az elõbbi négyzete) hivatalos megnevezése: coefficient of determination. A tökéletes pozitív lineáris összefüggés esetén r = 1, tökéletes negatív lineáris összefüggés esetén r = -1, míg függetlenség esetén r = 0. A korrelációs együtthatóval kapcsolatban gyakoriak a félreértések. Ezek részletesen olvashatók a "Kapcsolat változók között" címû fejezetben. Fontos tudni, hogy a korrelációs együttható értéke erõsen függ a kilógó értékektõl.
Rang (rank)
Ezt a statisztikát úgy kapjuk, ha a rendezett mintában minden elem értékét a rendezésben elfoglalt sorszámával helyettesítünk. Mint a rendezett mintát, ezt a statisztikát sem önmagában használjuk, hanem további statisztikákat származtatunk belõle.
Rangkorreláció (rank correlation)
A rangokból számított korrelációs együttható (Spearman féle korrelációs együtthatónak is nevezik). Akkor használjuk az eredeti Pearson féle korrelációs együttható helyett, ha az adatpárok közül legalább egy nem numerikus, hanem ordinális skálájú, vagy ha az eloszlás nagyon ferde, esetleg kilógó értékek vannak a mintában.