Jegyezzük fel a tanfolyam hallgatói közül véletlenszerûen kiválasztott személyek néhány adatát. A nevük mellett példáúl testmagasságukat és testtömegüket. A kapott értékeket irjuk egy táblázatba.
Személy neve Testmagasság Testtömeg (cm) (kg) Jozsef 177 69
Különbözik-e a fenti táblázat a két mintás t próba táblázatától?
Különbözi-e a fenti táblázat az egy mintás t próba táblázatától?
ezek az összetartozó számok egy-egy személy tulajdonságait irják le.
Kérdés, van-e összefüggés a testmagasság és a testtömeg között?
Ábrázoljuk az egy személyhez tartozó számpárokat mint egy pontot egy olyan derékszögü koordinátarendszerben, melynek tengelyeit a testmagasság és a testtömeg ábrázolására skálázzuk.. Egy személy adatait 1 olyan ponttal ábrázoljuk, amelynek koordinátái (x és y) a testmagasság és a testtömeg értékei.
Ábra
A kapott ponthalmaz nem teljesen véletlenszerüen oszlik meg de elrendezése jelentõs szóródást is mutat. A pontok helyzete valamilyen összefüggés létét sugallja.
Néhány további példa:
Adott rádioaktiv anyag esetén a radioaktiv bomlás és az idõ kapcsolata. A várható élettartam és az életkor. A gyógyszerek hatásának és a használt adag. A testmozgás során a szivmûködés frekvenciája és a végzett munka mennyiségének kapcsolata.
A két számoszlop két változó, méghozzá két valószínûségi változó, melyek értékei a véletlentõl is függenek. A két változó nem független, mert minden érték pár úgy függ egymástól, hogy egy személyhez tartozó adatok.
Két változó lehet 1. Függvényszerü kapcsolatban, 2. Stochasztikus kapcsolatban, és 3. Lehet független egymástól.
Egy lináris függvénykapcsolat ábrája
2 független változó kapcsolatát bemutató ponthalmaz.
2 valószinûségi változó kapcsolatát bemutató ponthalmaz.
Diszkrét valószinûségi változók közötti kapcsolat vizsgálatára a Khi négyzet próba használható, a korreláció és a regresszió módszere erre nem alkalmasak.
A kapcsolat szorosságát, a függõség fokát mérnünk kell. Ennek mérésére a korrelációs együttható a szokásos mérõszám, amelynek sok szemléletes tulajdonsága hasonló a szórás tulajdonságaihoz. A korrelációs együttható egy statisztika, azaz egy minta korreláltsága leirására szolgál, miközben a populáció változói közötti kapcsolat erõsségét a korrelációs együttható mint paraméter határozza meg.
Az összetartozó értékpárok halmazának mindegyik tagját (a pontok x és y koordinátáit) külön-külön átlagolhatjuk és az egyes (x, vagy y) értékeknek a saját átlaguktól (x, y) való eltérését vizsgálhatjuk. Az x, vagy az y szórásának számitásakor ezeket a különbségek négyzeteit átlagoltuk (majd négyzetgyököt vontunk belõle), a korrelációs együttható számitásakor az összetartozó különbségeket összeszorozzuk és a szorzatok összegét (ezt másnéven kovarianciának is nevezik) elosztjuk a négyzetes különbségek összegével. (képlet) A két változó szerepe a korreláció vizsgálatában felcserélhetõ, nincs kitüntetett szerepe egyiknek sem.
A korrelációs együttható két fontos tulajdonsága, 1. Független változók esetében a korrelációs együttható értéke 0, 2. Lineáris függvénykapcsolatban lévõ (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1.
Minél szorosabb (lineáris) összefüggés van két, véletlentõl is függõ változó között, annál közelebb áll a korrelációs együttható értéke az 1-hez. Forditva, minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz.
Fontos, hogy a korrelációs együttható az egyszerû, közel lineáris stochasztikus kapcsolat esetében használható statisztika, egy bonyolultabb függvénygörbe mentén elhelyezkedõ értékek kapcsolatának leirására a korrelációs együttható nem alkalmas.
Grafikus példák: 1. Valamilyen függvénykapcsolatban lévõ, például egy parabola mentén elhelyezkedõ pontok esete. A két csoportban mért, külön-külön 0 koorrelációjú változók esete, pl. egészséges kontrollok és betegek valamely csoportja, melyekben mind a két változó különbözik, miközben az adott csoporton belül nem korrelálnak egymással a változók.
Ha két változó korrelációjának vizsgálata során az együttható értéke 0, akkor még nem biztos, hogy ezek függetlenek is! Ezért ilyenkor csak annyit mondhatunk: a két változó korrelálatlan.
A két valószinûségi változó korrelációját egy elméleti (rho-val jelölt) korrelációs együttható irja le. Ennek értékét a gyakorlatban becsléssel közelitjük meg. A becsléshez a szokásos módszer szerint a populációból mintát veszünk, majd a minta korrelációs együtthatóját kiszámoljuk, és meghatározzuk a becslés hibáját. A becslés hibájának ismeretében megmondhatjuk, hogy mekkora annak a valószinûsége, hogy a mintából számolt korrelációs együttható nem =0
A korrelációs együttható elõjele jelzi, hogy az összefüggést jellemzõ egyenes emelkedõ, vagy sülyedõ jellegü-e.
Mind a két változó folytonos
A korreláció szignifikanciája: Mennyire bizhatunk egy mintából számolt korrelációs együtthatóban? Ez két dologtól függ. -egyrészt függ a korrelációs együttható számértékétõl. Minél nagyobb ez a szám, azaz minél közelebb esek 1 hez, annál valószinûbb, hogy különbözik a 0-tól! Másrészt bizalmunk attól is függ, mekkora elemszámú a minta, amibõl a korrelációs együttható értékét kiszámoltuk. Ez a két tényezõ szerepel a korrelációs együttható szórásának a képletében is, ahol a r-nek a SE egyenlõ (1-r)exp2/sqrt(n). Ez a mennyiség arra enged következtetni, hogy ismételt mintavétel esetében milyen határok közé milyen valószinûséggel esik az új mintából számolt r értéke. Az r és annak a SE-je határozza meg, hogy milyen az r szignifikanciája. Ey azt mondja meg, hogy mekkora annak a valószinûsége, hogy az r olyan populációból származó mintából számoltuk ki, amelyben az r=0. és csak a véletlenkövetkeztében volt a mintában értéke r.
Az r SE-jének ismeretében lehet az r számára konfidencia intervallumot késziteni, és annak segitségével lehet két korrelációs koefficiens azonosságára, vagy különbözõségére következtetni.
Görbe vonal mentén elhelyezkedõ pontok, görbére illeszkedõ pontok esetében a korreláció nem alkalmas az összefüggés jellemzésére.
Nem használható, ha az egyik változót a kutató határozza meg, például gyógyszerek dózis-hatás görbéje esetében, amikor a gyógyszert néhány rögzitett, és nem a véletlentõl függõ adagban adják.
Gondolnunk kell arra is, hogy ha a korreláció koefficiense (r) szignifikáns, az még nem jelenti azt, hogy a változók között kapcsolat erõs, vagy azt, hogy a kapcsolat jelentõs, fontos lenne. A korreláció, és annak a valószinüsége tény, a többi a szakmai értékeléstõl, érveléstõl függ.
Néhány kiugró érték erõsen torzithatja a korrelációs együtthatót. A szóródási ábrán feltûnõ, kiugró érték(ek) esetén gondos vizsgálatra, szakértõ segitségére van szükség. Esetleg a nem-paraméteres módszer, a Spearman féle rang-korreláció használata tanácsolható.
Gyakori és súlyos hiba, hogy a két változó közötti korrelációból ok-okozeti összefüggésre következtetnek. A korreláció mögött lehet ok-okozati viszony, de az is lehet, hogy a két korrelált változó nincs egymással ok-okozati kapcsolatban, hanem mind a kettõ egy harmadik, közös októl függ. A korreláció magyarázata lehet a véletlen is, például, mind a két változó az idõvel korrelált, és a közös tényetõvel korrelált változók között gyakran van korreláció is. A tanulság, hogy az ok-okozati összefüggést logikai, vagy kisérleti úton kell bizonyitani.
Ha két (vagy több) tulajdonság (változó) között van kapcsolat, akkor gyakran szeretnénk az egyik értékébõl megjósolni, vagy kiszámitani a másik értékét. Ezt lehetõleg nem csak általában szeretnénk megtenni, hanem az egyes adatok esetében is szeretnénk tudni, hogy ha az egyik változó értéke adott, akkor mit várhatunk a másik váltzó értékére. Tudjuk, hogy biztos ereményt csak függvény kapcsolat esetén kaphatunk, és ha a változónk a véletlentõl is függ, akkor a megjósolt érték nem lesz teljesen pontos.
Keressük a kapcsolatban foglalt törvényszerüséget. Ehhez a két változó között meglévõ kapcsolatot függvényként szeretnénk kifejezni. A stochasztikus változók kapcsolata esetében a két változó kapcsolatát leiró függvény mellett a képletben megjelenik a véletlen hatását leiró valószinüségi változó is. A függvény azt fogja kifejezni, hogy az egyik változó (x) adott értékéhez átlagosan a a másik változó milyen értéke tartozik.
A legegyszerübb regressziós kapcsolat két változó között a grafikusan egy egyenes vonallal jellemezhetõ lineáris függvénykapcsolat. Esõ kérdésünk lehet: a két változó között van-e egy egyenessel leirható összefüggés? Ha igen, akkor megkeressük a legjobb egyenest.
Az ennél bonyolultabb, nem-lineáris függvénykapcsolatok, vagy a kettõnél több változó függvénykapcsolatának vizsgálata a statisztika haladó témái közé tartoznak.
A regressziós kapcsolatban mind a két változó függhet a véletlentõl, de az is lehet, hogy csak az egyik esetében fontos a véletlentõl függõ komponens. A továbbiakban mi a két esetet nem különböztetjük meg.
A regresszióban a két változónak szerepe nem felcserélhetõ. A lineáris regresszó képletében y=ax+b képletben az egyik változó az x, a másik az y helyére kerül, és az x változó segitségével fogjuk az y értékét megjósolni. Itt elsõsorban logikailag fontos hogy a két változó szerepe nem felcserélhetõ. Emlékezzünk arra, hogy a korreláció esetében a két változó közül egyik sem volt kitüntetett, azaz felcserélhetõk voltak.
Gyakran az x változó esetében nem tételezzük fel, hogy a véletlen változás az x-et is érinti, hanem az x-t általunk választható rögzitett és ismert értékként kezeljük, és a véletlentõl való függés az y értékében jelenik meg. Az y tehát függ az x-tõl is, de ezenkivül a véletlen okozta ingadozástól is.
Hogyan határozzuk meg, hogy a pontok közé húzható rengeteg egyenes közül melyik az amelyik az adatok összefüggését legjobban jellemzi? A grafikus ábrázolás pontdiagramja sejteti a lineáris összefüggést. Vonalzóval, "szemre" azonban nehéz megtalálni az egyenes és a pontok legjobb illeszkedését.
Ábra 1 ponthalmaz, 3 egyenes, melyik illeszkedik legjobban?
A legjobb illeszkedést a legkisebb négyzetek módszerével számoljuk ki. Nem hibázunk jelentõsen, ha azt mondjuk, hogy a pontok és az egyenes távolságát minimalizálja a legkisebb négyzetek módszere. A valóságban a legkisebb négyzetek módszere azt az egyenest keresi meg, amelyre igaz az, hogy ha a pontoknak az egyenestõl mért távolságait négyzetre emeljük, majd a kapott számokat összegezzük, akkor ez az összeg a minimális lesz (nincs olyan másik egyenes, ami esetében kisebb ilyen összeget kapnánk). Ez legtöbbször nem azonos a távolságok összegével, sem annak négyzetével (mert általában nem mindegy, hogy elõbb emelünk-e négyzetre és utána összegzünk, vagy pedig forditva, elõbb összegzünk és utána emelünk négyzetre), de igen hasonló tulajdonságú statisztika.
Az angolszász szakirodalom a regresszió esetében használja még a determinációs koefficiens fogalmát is, amely az y értékek esetében a lineáris függvénynek tulajdonitható változásokat (szóródást) viszonyitja az összes szóródáshoz. Ha minden szóródást a lináris komponens magyaráz, és nincs véletlennek tulajdonitható komponens, akkor ez a hányados azonos 1-el. Ez a koefficiens könnyen bizonyithatóan azonos a korrelációs együttható négyzetével. A pontok szóródásának minél nagyobb részét tudjuk megmagyarázni a lináris regresszióval, annál nagyobb ez az érték, annál közelebb áll egyhez ez a hányados, és akkor annál nagyobb a korrelációs együttható is. A regressziónak ez a tulajdonsága jól mutatja a korreláció és a lineáris regresszió fogalmainak rokonságát.
A korrelációhoz hasonlóan a két változó kapcsolata a regresszió esetében is többféle lehet. Ha a két változó között nincs kapcsolat, akkor a regressziós együttható értéke 0. Ha van kapcsolat, akkor a regresssziós együttható értéke eltér a 0-tól.
A regressziós egyenes képletében mind a konstans tag, mind pedig az x együtthatója a véletlentõl is függõ mennyiség. Ismételt mintavétel esetében (a kisérlet ismétlésekor) várható hogy egyik érték sem lesz pontosan ugyanaz, mint korábban volt, hanem szóródást fognak mutatni.
Fontos kérdés, hogy a regressziós együttható értéke eltér-e a 0-tól, másképen fogalmazva van-e statisztikai értelemben vett összefüggés a két változó között, és milyen valószinüséggel helyes errõl a kérdésrõl hozott döntésünk.
Ha a regresszós egyenest az egyik változó értékének ismeretében a másik becslésére kivánjuk használni, akkor tudnunk kell, hogy a becslés jósága függ a változók kapcsolatának erõsségétõl, azaz a korreláció szorosságától. Minél szorosabb a kapcsolat a két változó között, annál jobb az x alapján az y értékének a becslése.
A minta független elemekbõl áll, véletlenszerü mintavétellel vett.
Folytonos változók kapcsolata
Minden x értékre az y érték normális eloszlású valószinûségi változó
Mind a konstans tag, mind pedig a meredekség esetében a standard hibával képzett hányadosa a t eloszlást követi, n-2 szabadságfokkal. Ennek alapján lehet véleményt kialakitani arról, hogy a számitott értékeknek a nullától való eltérését vajon a véletlen okozta-e? A szignifikáns (0-tól eltérõ) regressziós együttható (meredekség) azt jelzi, hogy a két változó kapcsolatát az adott valószinüség mellett nem a véletlen hozta létre.
Az egyes pontok és a regressziós egyenes közötti függõleges távolságokat reziduálisoknak is nevezik, és ezek képviselik az eljárásban elkülönitett véletlentõl függõ komponenst. Ezek részletes vizsgálata fontos kiegészitése a változók kapcsolatának regresszióval történõ vizsgálatának. A statisztikai programcsomagok rendszerin tartalmaznak eljárásokat a regresszió kiszámitása után a rezidális értékek táblázatokba foglalására, azok grafikus vizsgálatára. A reziduálisok ábrázolás jól mutathatja, ha a szóródás függ a független változó értékétõl, ha az összefüggés eltér a lineáristól, ha az x tengely mentén egymás mellett lévõ adatok nem függetlenek egymástól.
Minél kisebb az ábrán a vertikális szóródás , annál szorosabb a korreláció, és annál jobb az y érték becslése. Ezt illusztrálja az ábra. A becslés korlátai is jól látszanak az ábrán.
A regressziós együttható, és a tengelymetszet értékének a hibája. A görbe körüli szóródás adataiból a statisztikai programcsomagok segitségével meghatározhatjuk a regressziós egyenes együtthatóinak standard hibáját. A standard hiba segitségével konfidencia intervallumok képezhetõk, és az is vizsgálható, hogy független mintákból számított két regressziós egyenes paraméterei között van-e különbség?
A lineáris regresszió számitása során a korreláció esetén emlitett majdnem minden hiba elkövethetõ. Kivétel, hogy a regresszió esetében a "független" változó (x) esetében megengedhetõ, hogy az ne legyen valószinüségi változó, értékét a vizsgáló határozza meg.