Exploratív adatanalízis

Tornóci László

Definíció

EDA = Explorative Data Analysis (John F. Tukey)

Olyan ábrázolási technikák ill. statisztikai módszerek, melyek segítenek adataink természetének, összefüggéseinek megismerésében. Minthogy feladata éppen az adatok megismerése, rendszerint ún. robusztus módszereket igyekszik használni (olyan módszereket, amik viszonylag függetlenek a minta eloszlásától, illetve a mintába esetlegesen bekerülő extrém értékektől).

Nem pótolja a klasszikus hipotézisvizsgálatokat, hanem megelőzi azok alkalmazását! Az EDA eredetileg kifejezetten olyan módszereket használt, amik papírral és ceruzával is könnyen elvégezhetők. Ma már ez nem szempont, de az adatexploráció továbbra is elengedhetetlen része a statisztikai analízisnek.


Az adatokkal való ismerkedés egy változó esetén

Hisztogram készítése
Nem mindegy az oszlopok szélessége, és sem, hogy hova esnek az osztópontok.

Az oszlopok szélességének csökkentésével megmutatkozik, hogy az eloszlásnak két csúcsa van:

Az osztópontok megválasztása sem mindegy:
Hisztogram készítése - lehetőségek a Statistica programban
Hisztogram készítése - normalitásvizsgálat
A " Hanging bars " opció. Jobb módszerek a normalitás ellenőrzésére: normal probability plot (quantile plot), ill. hipotézisvizsgálat. A probability plot típusai: jó illeszkedés, ferdeség, erős vagy gyenge illeszkedés a széleken.
Táblázatok a hisztogram helyett
A box-and-whiskers ábrázolás a hisztogram helyett
A boxplot és a hisztogram viszonya

A boxplot a lehető legtömörebb formában ad használható információt az eloszlásról, a kilógó értékekről. (példa: átlag-sd ill. boxplot összehasonlítás a baseball adatokon).

A kilógó értékek azonosítása (brushing tool)
Másik lehetőség (missing/out of range plots)

Gyors összehasonlítás: box category, több változó, category plot
Ha kevés adat van: case profiles


Az adatokkal való ismerkedés több változó esetén


Az adatok prezentációja

Adataink másoknak történő bemutatásakor fontos, hogy hallgatóinkat meggyőzzük állításaink igazáról. Ehhez világos szerkezetű, jól feliratozott ábrák szükségesek. Ahhoz azonban, hogy a bemutatott hatás/változás stb. mások számára is jól érzékelhető legyen, nem mindegy, hogyan választjuk meg pl. a tengelyeket, skálákat.
A tengely megtörése, a skála megnyújtása
A tengely megtörésével, a skála megnyújtásával kicsi változások is jelentősnek tűnnek.
Lineáris vs. logaritmikus tengely
Attól függően, hogy lineáris vagy logaritmikus skálát használunk, a bemutatott görbe alakja erősen függ.