Exploratív adatanalízis
Tornóci László
Definíció
EDA = Explorative Data Analysis (John F. Tukey)
Olyan ábrázolási technikák ill. statisztikai módszerek, melyek segítenek
adataink természetének, összefüggéseinek megismerésében. Minthogy feladata
éppen az adatok megismerése, rendszerint ún. robusztus módszereket
igyekszik használni (olyan módszereket, amik viszonylag függetlenek a minta
eloszlásától, illetve a mintába esetlegesen bekerülő extrém értékektől).
Nem pótolja a klasszikus hipotézisvizsgálatokat, hanem megelőzi azok
alkalmazását! Az EDA eredetileg kifejezetten olyan módszereket használt,
amik papírral és ceruzával is könnyen elvégezhetők. Ma már ez nem szempont,
de az adatexploráció továbbra is elengedhetetlen része a statisztikai analízisnek.
Az adatokkal való ismerkedés egy változó esetén
Hisztogram készítése
Nem mindegy az oszlopok szélessége, és sem, hogy hova esnek az osztópontok.
Az oszlopok szélességének csökkentésével megmutatkozik, hogy az eloszlásnak
két csúcsa van:
Az osztópontok megválasztása sem mindegy:
Hisztogram készítése - lehetőségek a Statistica programban
Hisztogram készítése - normalitásvizsgálat
A " Hanging bars " opció. Jobb módszerek a normalitás ellenőrzésére: normal
probability plot (quantile plot), ill. hipotézisvizsgálat. A probability
plot típusai: jó illeszkedés, ferdeség, erős vagy gyenge illeszkedés a
széleken.
Táblázatok a hisztogram helyett
-
Gyakorisági táblázat (frequency tables)
-
Kvantilisek táblázata (descriptive statistics)
-
Maximum/minimum/medián (descriptive statistics) Ez mindenképpen kell!
A box-and-whiskers ábrázolás a hisztogram helyett
A
boxplot és a hisztogram viszonya
A boxplot a lehető legtömörebb formában ad használható információt az
eloszlásról, a kilógó értékekről. (példa: átlag-sd ill. boxplot összehasonlítás
a baseball adatokon).
A kilógó értékek azonosítása (brushing tool)
Másik lehetőség (missing/out of range plots)
Gyors összehasonlítás: box category, több változó, category plot
Ha kevés adat van: case profiles
Az adatokkal való ismerkedés több változó esetén
-
Egyszerű scatterplot
-
Scatterplot és az adatpontok azonosítása (brushing tool)
-
Matrix scatterplot és a brushing
-
Színskálák használata, 3D ábrák
-
Csoportokra osztás (categorized plot)
-
Tengelytranszformáció
-
Chernoff faces, star-symbol/sunray plots
-
Adatsorok - smoothing
-
Regresszió - reziduálok vizsgálata
Az adatok prezentációja
Adataink másoknak történő bemutatásakor fontos, hogy hallgatóinkat meggyőzzük
állításaink igazáról. Ehhez világos szerkezetű, jól feliratozott ábrák
szükségesek. Ahhoz azonban, hogy a bemutatott hatás/változás stb. mások
számára is jól érzékelhető legyen, nem mindegy, hogyan választjuk meg pl.
a tengelyeket, skálákat.
A tengely megtörése, a skála megnyújtása
A tengely megtörésével, a skála megnyújtásával kicsi változások is jelentősnek
tűnnek.
Lineáris vs. logaritmikus tengely
Attól függően, hogy lineáris vagy logaritmikus skálát használunk, a bemutatott
görbe alakja erősen függ.