Tehtävä:
Siihen liittyy 26 arvoparin näyte (x k, y k):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Laskemiseen/kuvaukseen vaaditaan:
- korrelaatiokerroin;
- testaa hypoteesia satunnaismuuttujien X ja Y riippuvuudesta merkitsevyystasolla α = 0,05;
- lineaarisen regressioyhtälön kertoimet;
- sirontakaavio (korrelaatiokenttä) ja regressioviivakaavio;
RATKAISU:
1. Laske korrelaatiokerroin.
Korrelaatiokerroin on kahden satunnaismuuttujan keskinäisen todennäköisyysvaikutuksen indikaattori. Korrelaatiokerroin R voi ottaa arvoja -1 ennen +1 . Jos absoluuttinen arvo on lähempänä 1 , tämä on todiste vahvasta yhteydestä määrien välillä, ja jos lähempänä 0 - tämä tarkoittaa heikkoa yhteyttä tai sen puuttumista. Jos absoluuttinen arvo R on yhtä suuri, silloin voidaan puhua suureiden välisestä toiminnallisesta yhteydestä, eli yksi suure voidaan ilmaista toisen kautta matemaattisen funktion avulla.
Korrelaatiokerroin voidaan laskea seuraavilla kaavoilla:
n |
Σ |
k = 1 |
Mx | = |
|
| xk, | Minun | = | tai kaavalla
Käytännössä kaavaa (1.4) käytetään useammin korrelaatiokertoimen laskemiseen, koska se vaatii vähemmän laskentaa. Kuitenkin, jos kovarianssi on laskettu aiemmin cov(X,Y), silloin on kannattavampaa käyttää kaavaa (1.1), koska Itse kovarianssiarvon lisäksi voit käyttää myös välilaskentojen tuloksia. 1.1 Lasketaan korrelaatiokerroin kaavalla (1.4), tätä varten laskemme x k 2:n, y k 2:n ja x k y k:n arvot ja syötämme ne taulukkoon 1. pöytä 1
1.2. Lasketaan M x kaavalla (1.5). 1.2.1. x k x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25,750000 1.3. Lasketaan M y samalla tavalla. 1.3.1. Lisätään kaikki elementit peräkkäin y k y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000 1.3.2. Jaa saatu summa näyteelementtien lukumäärällä 793.00000 / 26 = 30.50000 M v = 30.500000 1.4. Samalla tavalla lasketaan M xy. 1.4.1. Lisätään peräkkäin kaikki taulukon 1 kuudennen sarakkeen elementit 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Jaa saatu summa elementtien lukumäärällä 20412.83000 / 26 = 785.10885 M xy = 785,108846 1.5. Lasketaan S x 2:n arvo kaavalla (1.6.). 1.5.1. Lisätään peräkkäin kaikki taulukon 1 neljännen sarakkeen elementit 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Jaa saatu summa elementtien lukumäärällä 17256.91000 / 26 = 663.72731 1.5.3. Vähennä M x:n neliö viimeisestä luvusta saadaksesi arvon S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Lasketaan S y 2:n arvo kaavalla (1.6.). 1.6.1. Lisätään peräkkäin kaikki taulukon 1 5. sarakkeen elementit 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Jaa saatu summa elementtien lukumäärällä 24191.84000 / 26 = 930.45538 1.6.3. Vähennä M y:n neliö viimeisestä luvusta saadaksesi S y 2:n arvon S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Lasketaan suureiden S x 2 ja S y 2 tulo. S x 2 S y 2 = 0,66481 0,20538 = 0,136541 1.8. Otetaan viimeisen luvun neliöjuuri ja saadaan arvo S x S y. S x Sy = 0,36951 1.9. Lasketaan korrelaatiokertoimen arvo kaavalla (1.4.). R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028 VASTAUS: R x,y = -0,720279 2. Tarkistamme korrelaatiokertoimen merkityksen (tarkistamme riippuvuushypoteesin).Koska korrelaatiokertoimen estimaatti lasketaan äärellisestä otoksesta ja voi siksi poiketa populaatioarvostaan, on tarpeen testata korrelaatiokertoimen merkitsevyys. Tarkastus tehdään t-testillä:
Satunnainen arvo t seuraa Studentin t-jakaumaa ja t-jakaumataulukon avulla on tarpeen löytää kriteerin kriittinen arvo (t cr.α) annetulla merkitsevyystasolla α. Jos kaavalla (2.1) laskettu t absoluuttisena arvona osoittautuu pienemmäksi kuin t cr.α , niin satunnaismuuttujien X ja Y välillä ei ole riippuvuutta. Muuten kokeelliset tiedot eivät ole ristiriidassa satunnaismuuttujien riippuvuutta koskevan hypoteesin kanssa. 2.1. Lasketaan t-kriteerin arvo kaavalla (2.1) ja saadaan:
2.2. Määritämme t-jakaumataulukon avulla parametrin t cr.α kriittisen arvon Haluttu tcr.α:n arvo sijaitsee vapausasteiden lukumäärää vastaavan rivin ja annettua merkitsevyystasoa α vastaavan sarakkeen leikkauskohdassa. taulukko 2 t-jakelu
2.2. Verrataan t-kriteerin ja t cr.α:n itseisarvoa T-kriteerin itseisarvo ei ole pienempi kuin kriittinen arvo t = 5,08680, t cr.α = 2,064, joten kokeelliset tiedot, todennäköisyydellä 0,95(1 - α), eivät ole ristiriidassa hypoteesin kanssa satunnaismuuttujien X ja Y riippuvuudesta. 3. Laske lineaarisen regressioyhtälön kertoimet.Lineaarinen regressioyhtälö on suoran yhtälö, joka approksimoi (suunnilleen kuvaa) satunnaismuuttujien X ja Y välistä suhdetta. Jos oletetaan, että arvo X on vapaa ja Y on riippuvainen X:stä, regressioyhtälö kirjoitetaan seuraavasti: seuraa Y = a + b X (3.1), jossa:
Kaavalla (3.2) laskettu kerroin b kutsutaan lineaariseksi regressiokertoimeksi. Joissakin lähteissä a kutsutaan vakioregressiokertoimeksi ja b muuttujien mukaan. Virheet Y:n ennustamisessa tietylle arvolle X lasketaan kaavojen avulla: Myös suuruutta σ y/x (kaava 3.4) kutsutaan jäännösstandardipoikkeama, se kuvaa arvon Y poikkeamaa yhtälön (3.1) kuvaamasta regressiosuorasta X:n kiinteälle (annetulle) arvolle. | . |
Sy/Sx = 0,55582
3.3 Lasketaan kerroin b kaavan (3.2) mukaan
b = -0.72028 0.55582 = -0.40035
3.4 Lasketaan kerroin a kaavan (3.3) mukaan
a = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Arvioidaan regressioyhtälön virheet.
3.5.1 Ottamalla S y 2:n neliöjuuren saamme:
3.5.4 Lasketaan suhteellinen virhe kaavalla (3.5)
δ y/x = (0,31437 / 30,50000)100 % = 1,03073 %
4. Rakennamme sirontadiagrammin (korrelaatiokenttä) ja regressioviivakuvaajan.
Sirontakaavio on graafinen esitys vastaavista pareista (x k, y k) pisteinä tasossa, suorakaiteen muotoisina koordinaatteina X- ja Y-akselien kanssa. Korrelaatiokenttä on yksi toisiinsa liittyvän (parillisen) näytteen graafisista esityksistä. Myös regressioviivakaavio piirretään samaan koordinaattijärjestelmään. Akseleiden mittakaavat ja lähtökohdat tulee valita huolellisesti, jotta kaavio on mahdollisimman selkeä.4.1. Etsi otoksen minimi- ja maksimielementti X on vastaavasti 18. ja 15. alkio, x min = 22.10000 ja x max = 26.60000.
4.2. Otoksen Y minimi- ja maksimielementti on 2. ja 18. elementti, vastaavasti, y min = 29.40000 ja y max = 31.60000.
4.3. Valitse x-akselilta aloituspiste hieman pisteen x 18 = 22,10000 vasemmalle puolelle ja niin mittakaavassa, että piste x 15 = 26,60000 sopii akselille ja loput pisteet näkyvät selvästi.
4.4. O
4.5. Asetamme x k-arvot abskissa-akselille ja y k-arvot ordinaatta-akselille.
4.6. Piirrämme pisteet (x 1, y 1), (x 2, y 2),…, (x 26, y 26) koordinaattitasolle. Saamme hajontakaavion (korrelaatiokentän), joka on esitetty alla olevassa kuvassa.
4.7. Piirretään regressioviiva.
Tätä varten etsitään kaksi erilaista pistettä, joiden koordinaatit (x r1, y r1) ja (x r2, y r2) täyttävät yhtälön (3.6), piirretään ne koordinaattitasolle ja piirretään niiden läpi suora. Ensimmäisen pisteen abskissaksi otetaan arvo x min = 22.10000. Korvaamalla arvon x min yhtälöön (3.6), saamme ensimmäisen pisteen ordinaatin. Siten meillä on piste, jonka koordinaatit (22.10000, 31.96127). Samalla tavalla saamme toisen pisteen koordinaatit laittamalla abskissaksi arvon x max = 26,60000. Toinen piste on: (26.60000, 30.15970).
Regressioviiva näkyy alla olevassa kuvassa punaisella
Huomaa, että regressioviiva kulkee aina X:n ja Y:n keskiarvojen pisteen läpi, ts. koordinaateilla (M x , M y).
Korrelaatioanalyysin tarkoitus on tunnistaa arvio todellista prosessia kuvaavien satunnaismuuttujien (ominaisuuksien) välisen yhteyden vahvuudesta.Korrelaatioanalyysin ongelmat:
a) Kahden tai useamman ilmiön koherenssiasteen (läheisyys, voimakkuus, vakavuus, intensiteetti) mittaaminen.
b) Sellaisten tekijöiden valinta, joilla on merkittävin vaikutus tuloksena olevaan attribuuttiin, perustuen ilmiöiden välisen yhteyksien asteen mittaamiseen. Tässä suhteessa merkittäviä tekijöitä käytetään edelleen regressioanalyysissä.
c) Tuntemattomien syy-suhteiden havaitseminen.
Suhteiden ilmenemismuodot ovat hyvin erilaisia. Yleisimmät tyypit ovat toiminnallinen (täydellinen) ja korrelaatio (epätäydellinen) yhteys.
Korrelaatio ilmenee keskimäärin massahavainnoissa, kun riippuvan muuttujan annetut arvot vastaavat tiettyä riippumattoman muuttujan todennäköisyysarvojen sarjaa. Suhdetta kutsutaan korrelaatioksi, jos jokainen tekijäominaisuuden arvo vastaa tuloksena olevan ominaisuuden hyvin määriteltyä ei-satunnaista arvoa.
Korrelaatiotaulukon visuaalinen esitys on korrelaatiokenttä. Se on kaavio, jossa X-arvot on piirretty abskissa-akselille, Y-arvot on piirretty ordinaatta-akselille ja X- ja Y-yhdistelmät esitetään pisteillä Pisteiden sijainnin perusteella yhteydestä.
Yhteyden läheisyyden indikaattorit mahdollistavat tuloksena olevan ominaisuuden vaihtelun riippuvuuden karakterisoimisen tekijäominaisuuden vaihtelusta.
Edistyneempi tungostavuuden osoitin korrelaatioyhteys On lineaarinen korrelaatiokerroin. Tätä indikaattoria laskettaessa ei oteta huomioon vain ominaisuuden yksittäisten arvojen poikkeamia keskiarvosta, vaan myös näiden poikkeamien suuruus.
Tämän aiheen avainkysymyksiä ovat tehollisen ominaisuuden ja selittävän muuttujan välisen regressiosuhteen yhtälöt, pienimmän neliösumman menetelmä regressiomallin parametrien estimoimiseksi, tuloksena olevan regressioyhtälön laadun analysointi, luottamusvälien rakentaminen tehollisen ominaisuuden arvot regressioyhtälön avulla.
Esimerkki 2
Normaaliyhtälöjärjestelmä.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Tietojemme kannalta yhtälöjärjestelmällä on muoto
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Ensimmäisestä yhtälöstä, jonka ilmaisemme A ja korvaa toinen yhtälö:
Saamme b = -3,46, a = 1379,33
Regressioyhtälö:
y = -3,46 x + 1379,33
2. Regressioyhtälön parametrien laskenta.
Esimerkki tarkoittaa.
Esimerkkivarianssit:
Standardipoikkeama
1.1. Korrelaatiokerroin
Kovarianssi.
Laskemme yhteyden läheisyyden indikaattorin. Tämä indikaattori on otoksen lineaarinen korrelaatiokerroin, joka lasketaan kaavalla:
Lineaarinen korrelaatiokerroin saa arvot -1:stä +1:een.
Ominaisuuksien väliset yhteydet voivat olla heikkoja ja vahvoja (tiiviitä). Niiden kriteerit arvioidaan Chaddock-asteikolla:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Esimerkissämme piirteen Y ja tekijän X välinen suhde on korkea ja käänteinen.
Lisäksi lineaarinen parikorrelaatiokerroin voidaan määrittää regressiokertoimella b:
1.2. Regressioyhtälö(regressioyhtälön estimointi).
Lineaarisen regression yhtälö on y = -3,46 x + 1379,33
Kerroin b = -3,46 osoittaa tehollisen indikaattorin keskimääräisen muutoksen (mittayksiköissä y) tekijän x arvon kasvaessa tai pienentyessä sen mittayksikköä kohden. Tässä esimerkissä y pienenee 1 yksiköllä keskimäärin -3,46.
Kerroin a = 1379,33 näyttää muodollisesti y:n ennustetun tason, mutta vain jos x = 0 on lähellä näytearvoja.
Mutta jos x=0 on kaukana x:n näytearvoista, niin kirjaimellinen tulkinta voi johtaa vääriin tuloksiin, ja vaikka regressioviiva kuvaa havaitut näytearvot melko tarkasti, ei ole mitään takeita siitä, että tämä myös olla tilanne, kun ekstrapoloidaan vasemmalle tai oikealle.
Korvaamalla sopivat x-arvot regressioyhtälöön, voimme määrittää suoritusindikaattorin y(x) tasatut (ennustetut) arvot kullekin havainnolle.
Y:n ja x:n välinen suhde määrää regressiokertoimen b etumerkin (jos > 0 - suora suhde, muuten - käänteinen). Esimerkissämme yhteys on päinvastainen.
1.3. Elastisuuskerroin.
Ei ole suositeltavaa käyttää regressiokertoimia (esimerkissä b) arvioimaan suoraan tekijöiden vaikutusta resultanttiominaispiirteeseen, jos resultantin indikaattorin y ja tekijän ominaiskäyrän x mittayksiköissä on ero.
Näitä tarkoituksia varten lasketaan elastisuuskertoimet ja beetakertoimet.
Keskimääräinen kimmokerroin E osoittaa, kuinka monta prosenttia tulos keskimäärin muuttuu aggregaatissa klo sen keskiarvosta kertoimen muuttuessa x 1 % sen keskiarvosta.
Elastisuuskerroin saadaan kaavasta:
Elastisuuskerroin on pienempi kuin 1. Siksi jos X muuttuu 1 %, Y muuttuu alle 1 %. Toisin sanoen X:n vaikutus Y:hen ei ole merkittävä.
Beta-kerroin osoittaa, kuinka suurella osalla sen keskihajonnan arvosta tuloksena olevan ominaisuuden keskiarvo muuttuu, kun tekijäominaisuus muuttuu keskihajonnansa arvolla muiden riippumattomien muuttujien arvon kanssa, jotka on kiinnitetty vakiotasolle:
Nuo. x:n lisäys keskihajonnalla S x johtaa Y:n keskiarvon pienenemiseen 0,74 keskihajonnan S y verran.
1.4. Arviointivirhe.
Arvioidaan regressioyhtälön laatu käyttämällä absoluuttisen approksimaatiovirhettä. Keskimääräinen likimääräinen virhe - laskettujen arvojen keskimääräinen poikkeama todellisista:
Koska virhe on alle 15%, tätä yhtälöä voidaan käyttää regressiona.
Varianssianalyysi.
Varianssianalyysin tarkoituksena on analysoida riippuvan muuttujan varianssia:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Missä
∑(y i - y cp) 2 - neliöpoikkeamien kokonaissumma;
∑(y(x) - y cp) 2 - regressiosta johtuvien neliöityjen poikkeamien summa ("selitetty" tai "tekijä");
∑(y - y(x)) 2 - neliöpoikkeamien jäännössumma.
Teoreettinen korrelaatiosuhde lineaariselle yhteydelle on yhtä suuri kuin korrelaatiokerroin r xy .
Kaikenlaisen riippuvuuden tapauksessa liitoksen tiiviys määritetään käyttämällä moninkertainen korrelaatiokerroin:
Tämä kerroin on universaali, koska se heijastaa yhteyden läheisyyttä ja mallin tarkkuutta, ja sitä voidaan käyttää myös mihin tahansa muuttujien väliseen yhteyteen. Kun rakennetaan yksitekijäkorrelaatiomallia, moninkertainen korrelaatiokerroin on yhtä suuri kuin parikorrelaatiokerroin r xy.
1.6. Määrityskerroin.
(Monikertaisen) korrelaatiokertoimen neliötä kutsutaan determinaatiokertoimeksi, joka osoittaa variaatioiden osuuden resultant-attribuutissa, joka selittää tekijäattribuutin vaihtelun.
Useimmiten determinaatiokerrointa tulkittaessa se ilmaistaan prosentteina.
R2 = -0,742 = 0,5413
nuo. 54,13 %:ssa tapauksista x:n muutokset johtavat y:n muutoksiin. Toisin sanoen regressioyhtälön valinnan tarkkuus on keskimääräinen. Loput 45,87 % Y:n muutoksesta selittyvät tekijöillä, joita ei ole otettu mallissa huomioon.
Bibliografia
- Ekonometria: Oppikirja / Toim. I.I. Eliseeva. – M.: Rahoitus ja tilastot, 2001, s. 34...89.
- Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Alkeiskurssi. Opetusohjelma. – 2. painos, tarkistettu. – M.: Delo, 1998, s. 17...42.
- Ekonometria-työpaja: Proc. korvaus / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko ja muut; Ed. I.I. Eliseeva. – M.: Rahoitus ja tilastot, 2001, s. 5...48.
06.06.2018 16 235 0 Igor
Psykologia ja yhteiskunta
Kaikki maailmassa on yhteydessä toisiinsa. Jokainen ihminen yrittää intuition tasolla löytää suhteita ilmiöiden välillä voidakseen vaikuttaa ja hallita niitä. Tätä suhdetta kuvaavaa käsitettä kutsutaan korrelaatioksi. Mitä se tarkoittaa yksinkertaisilla sanoilla?
Sisältö:
Korrelaation käsite
Korrelaatio (latinan sanasta "correlatio" - suhde, suhde)– matemaattinen termi, joka tarkoittaa tilastollisen todennäköisyysriippuvuuden mittaa satunnaissuureiden (muuttujien) välillä.
Esimerkki: Otetaan kahdentyyppisiä suhteita:
- Ensimmäinen- kynä henkilön kädessä. Mihin suuntaan käsi liikkuu, siihen suuntaan kynä menee. Jos käsi on levossa, kynä ei kirjoita. Jos joku painaa sitä hieman kovemmin, paperin jälki on rikkaampi. Tämäntyyppinen suhde kuvastaa tiukkaa riippuvuutta, eikä se ole korrelaatiota. Tämä suhde on toimiva.
- Toinen tyyppi– henkilön koulutustason ja kirjallisuuden lukemisen välinen suhde. Ei tiedetä etukäteen, ketkä lukevat enemmän: korkeakoulutuksen saaneet vai ilman. Tämä yhteys on satunnainen tai stokastinen, sitä tutkii tilastotiede, joka käsittelee yksinomaan massailmiöitä. Jos tilastollinen laskelma mahdollistaa koulutustason ja kirjallisuuden lukemisen välisen korrelaation osoittamisen, niin tämä mahdollistaa mahdollisten ennusteiden tekemisen ja tapahtumien todennäköisyyden ennustamisen. Tässä esimerkissä voidaan suurella todennäköisyydellä väittää, että korkeasti koulutetut, koulutetuimmat lukevat enemmän kirjoja. Mutta koska näiden parametrien välinen yhteys ei ole toimiva, voimme erehtyä. Voit aina laskea tällaisen virheen todennäköisyyden, joka on selvästi pieni ja jota kutsutaan tilastollisen merkitsevyyden tasoksi (p).
Esimerkkejä luonnonilmiöiden välisistä suhteista ovat: ravintoketju luonnossa, ihmiskeho, joka koostuu toisiinsa liittyvistä ja yhtenä kokonaisuutena toimivista elinjärjestelmistä.
Joka päivä kohtaamme korrelaatioita arjessa: sään ja hyvän mielen, tavoitteiden oikean muotoilun ja niiden saavuttamisen, positiivisen asenteen ja onnen, onnen tunteen ja taloudellisen hyvinvoinnin välillä. Mutta me etsimme yhteyksiä luottaen emme matemaattisiin laskelmiin, vaan myytteihin, intuitioon, taikauskoon ja turhaan spekulaatioon. Näitä ilmiöitä on erittäin vaikea kääntää matemaattiselle kielelle, ilmaista numeroina ja mitata. Se on toinen asia, kun analysoimme ilmiöitä, jotka voidaan laskea ja esittää numeroina. Tässä tapauksessa voidaan määrittää korrelaatio käyttämällä korrelaatiokerrointa (r), joka heijastaa satunnaismuuttujien välisen korrelaation voimakkuutta, astetta, läheisyyttä ja suuntaa.
Vahva korrelaatio satunnaismuuttujien välillä- näyttöä jonkin tilastollisen yhteyden olemassaolosta erityisesti näiden ilmiöiden välillä, mutta tätä yhteyttä ei voida siirtää samoihin ilmiöihin, vaan eri tilanteeseen. Usein tutkijat, saatuaan laskelmissaan merkittävän korrelaation kahden muuttujan välillä korrelaatioanalyysin yksinkertaisuuteen perustuen, tekevät usein vääriä intuitiivisia oletuksia ominaisuuksien välisten syy-seuraus-suhteiden olemassaolosta unohtaen, että korrelaatiokerroin on luonteeltaan todennäköisyys. .
Esimerkki: jääolosuhteissa loukkaantuneiden määrä ja moottoriajoneuvojen liikenneonnettomuuksien määrä. Nämä suuret korreloivat keskenään, vaikka ne eivät todellakaan ole yhteydessä toisiinsa, vaan niillä on yhteys vain näiden satunnaisten tapahtumien yhteiseen syyn - mustaan jäähän. Jos analyysi ei paljasta ilmiöiden välistä korrelaatiota, tämä ei vielä ole todiste niiden välisen riippuvuuden puuttumisesta, mikä voi olla monimutkaista epälineaarista eikä korrelaatiolaskelmien paljastamista.
Ensimmäinen, joka otti korrelaation käsitteen tieteelliseen käyttöön, oli ranska paleontologi Georges Cuvier. 1700-luvulla hän päätteli elävien organismien osien ja elinten korrelaatiolain, jonka ansiosta oli mahdollista palauttaa koko fossiilisen olennon, eläimen, ulkonäkö löydetyistä ruumiinosista (jäännöksistä). Tilastoissa termiä korrelaatio käytti ensimmäisen kerran vuonna 1886 englantilainen tiedemies Francis Galton. Mutta hän ei voinut johtaa tarkkaa kaavaa korrelaatiokertoimen laskemiseen, mutta hänen oppilaansa teki sen - kuuluisa matemaatikko ja biologi Karl Pearson.
Korrelaatiotyypit
Tärkeyden mukaan– erittäin merkittävä, merkittävä ja merkityksetön.
Erilaisia |
mitä r on yhtä suuri |
Erittäin merkittävä |
r vastaa tilastollisen merkitsevyyden tasoa p<=0,01 |
Merkittävä |
r vastaa p<=0,05 |
merkityksetön |
r ei saavuta p>0,1 |
Negatiivinen(yhden muuttujan arvon lasku johtaa toisen tason nousuun: mitä enemmän fobioita henkilöllä on, sitä epätodennäköisemmin hän ottaa johtoaseman) ja positiivinen (jos yhden muuttujan nousu johtaa nousuun toisen tasolla: mitä hermostuneempi olet, sitä todennäköisemmin sairastut). Jos muuttujien välillä ei ole yhteyttä, niin tällaista korrelaatiota kutsutaan nollaksi.
Lineaarinen(kun yksi arvo kasvaa tai pienenee, toinen myös kasvaa tai pienenee) ja epälineaarinen (kun yhden arvon muuttuessa, toisen arvon muutoksen luonnetta ei voida kuvata lineaarisen suhteen avulla, silloin sovelletaan muita matemaattisia lakeja - polynomi, hyperbolinen suhteet).
Voimalla.
Kertoimet
Sen mukaan, mihin asteikkoon tutkittavat muuttujat kuuluvat, lasketaan erilaisia korrelaatiokertoimia:
- Pearson-korrelaatiokerroin, pariittainen lineaarinen korrelaatiokerroin tai tuotemomenttikorrelaatio lasketaan muuttujille, joissa on mittausväli- ja määräasteikot.
- Spearmanin tai Kendallin rankkorrelaatiokerroin - kun vähintään yhdellä suureista on järjestysasteikko tai se ei ole normaalijakaumassa.
- Pisteen biserialinen korrelaatiokerroin (Fechner-merkkikorrelaatiokerroin) – jos toinen kahdesta suuresta on dikotominen.
- Neljän kentän korrelaatiokerroin (multiple rank correlation (concordance)) - jos kaksi muuttujaa ovat kaksijakoisia.
Pearson-kerroin viittaa parametrisiin korrelaatioindikaattoreihin, kaikki muut ovat ei-parametrisia.
Korrelaatiokertoimen arvo vaihtelee välillä -1 - +1. Täydellisellä positiivisella korrelaatiolla r = +1, täydellisellä negatiivisella korrelaatiolla r = -1.
Kaava ja laskelma
Esimerkkejä
On tarpeen määrittää kahden muuttujan välinen suhde: älyllisen kehityksen taso (testauksen mukaan) ja viivästysten määrä kuukaudessa (koulutuspäiväkirjan merkintöjen mukaan) koululaisten keskuudessa.
Alustavat tiedot on esitetty taulukossa:
№ |
IQ-tiedot (x) |
Tiedot viivästysten määrästä (y) |
Summa |
1122 |
|
Keskiverto |
112,2 |
Saadaksesi oikean tulkinnan saadusta indikaattorista on tarpeen analysoida korrelaatiokertoimen etumerkki (+ tai -) ja sen absoluuttinen arvo (modulo).
Korrelaatiokertoimen vahvuuden luokitustaulukon mukaisesti päätämme, että rxy = -0,827 on vahva negatiivinen korrelaatio. Myöhästyneiden koululaisten määrä on siis erittäin vahvasti riippuvainen heidän älyllisen kehityksensä tasosta. Voidaan sanoa, että korkean älykkyysosamäärän omaavat opiskelijat myöhästyvät tunneista harvemmin kuin matalan älykkyysosamäärän oppilaat.
Korrelaatiokerrointa voivat käyttää sekä tutkijat vahvistamaan tai kumoamaan oletuksen kahden suuren tai ilmiön riippuvuudesta ja mittaamaan sen vahvuutta ja merkitystä, että opiskelijat voivat tehdä empiiristä ja tilastollista tutkimusta eri aiheista. On muistettava, että tämä indikaattori ei ole ihanteellinen työkalu, se lasketaan vain lineaarisen suhteen vahvuuden mittaamiseen ja se on aina todennäköisyysarvo, jossa on tietty virhe.
Korrelaatioanalyysiä käytetään seuraavilla alueilla:
- taloustiede;
- astrofysiikka;
- yhteiskuntatieteet (sosiologia, psykologia, pedagogiikka);
- maatalouskemia;
- metallurgia;
- teollisuus (laadunvalvontaa varten);
- hydrobiologia;
- biometriset tiedot jne.
Syitä korrelaatioanalyysimenetelmän suosioon:
- Korrelaatiokertoimien laskennan suhteellinen yksinkertaisuus ei vaadi erityistä matemaattista koulutusta.
- Mahdollistaa tilastotieteen analyysin kohteena olevien massan satunnaismuuttujien välisten suhteiden laskemisen. Tässä suhteessa tämä menetelmä on yleistynyt tilastotutkimuksen alalla.
Toivon, että nyt pystyt erottamaan toiminnallisen suhteen korrelaatiosuhteesta ja tiedät, että kun kuulet televisiosta tai luet lehdistä korrelaatiosta, se tarkoittaa positiivista ja melko merkittävää keskinäistä riippuvuutta kahden ilmiön välillä.
Erilaiset merkit voivat liittyä toisiinsa.
Niiden välillä on kahdenlaisia yhteyksiä:
- toimiva;
- korrelaatio.
Korrelaatio venäjäksi käännettynä on vain yhteys.
Korrelaatioyhteyden tapauksessa voidaan jäljittää yhden ominaisuuden useiden arvojen vastaavuus toisen ominaisuuden useisiin arvoihin. Esimerkkeinä voimme tarkastella vahvistettuja korrelaatioita:
- lintujen, kuten haikaroiden, kurkien ja haikaroiden tassujen, kaulan ja nokan pituus;
- kehon lämpötilan ja sykkeen indikaattorit.
Useimmissa biolääketieteellisissä prosesseissa tämän tyyppisen yhteyden olemassaolo on todistettu tilastollisesti.
Tilastolliset menetelmät mahdollistavat ominaisuuksien keskinäisen riippuvuuden olemassaolon toteamisen. Erikoislaskelmien käyttö tähän johtaa korrelaatiokertoimien (liitettävyyden mittareiden) muodostamiseen.
Tällaisia laskelmia kutsutaan korrelaatioanalyysi. Se suoritetaan 2 muuttujan (satunnaismuuttujan) riippuvuuden vahvistamiseksi toisistaan, mikä ilmaistaan korrelaatiokertoimella.
Korrelaatiomenetelmän avulla voit ratkaista useita ongelmia:
- tunnistaa analysoitujen parametrien välisen suhteen olemassaolo;
- tieto korrelaation olemassaolosta antaa meille mahdollisuuden ratkaista ennustusongelmia. Siten on olemassa todellinen mahdollisuus ennustaa parametrin käyttäytyminen toisen korreloivan parametrin käyttäytymisen analyysin perusteella;
- luokittelun suorittaminen toisistaan riippumattomien ominaisuuksien valintaan perustuen.
Muuttujat:
- suhteessa järjestysasteikkoon lasketaan Spearman-kerroin;
- liittyvät intervalliasteikkoon – Pearson-kerroin.
Nämä ovat yleisimmin käytettyjä parametreja, niiden lisäksi on muitakin.
Kertoimen arvo voidaan ilmaista joko positiivisena tai negatiivisena.
Ensimmäisessä tapauksessa toisen muuttujan arvon kasvaessa havaitaan toisen. Jos kerroin on negatiivinen, kuvio on päinvastainen.
Mihin korrelaatiokerroin on tarkoitettu?
Toisiinsa liittyvillä satunnaismuuttujilla voi olla täysin erilainen tämän yhteyden luonne. Se ei välttämättä ole toimiva tapaus, jossa määrien välinen suora suhde voidaan jäljittää. Useimmiten molempiin suureisiin vaikuttaa joukko erilaisia tekijöitä, jos ne ovat yhteisiä molemmille suureille, havaitaan toisiinsa liittyvien kuvioiden muodostumista.
Tämä tarkoittaa, että tilastollisesti todistettu tosiasia suureiden välisen suhteen olemassaolosta ei vahvista, että havaittujen muutosten syy on todettu. Yleensä tutkija päättelee, että on olemassa kaksi toisiinsa liittyvää seurausta.
Korrelaatiokertoimen ominaisuudet
Tällä tilastollisella ominaisuudella on seuraavat ominaisuudet:
- Kertoimen arvo vaihtelee välillä -1 - +1. Mitä lähempänä ääriarvoja, sitä vahvempi positiivinen tai negatiivinen suhde lineaaristen parametrien välillä on. Nolla-arvon tapauksessa puhumme ominaisuuksien välisen korrelaation puuttumisesta;
- kertoimen positiivinen arvo ilmaisee, että jos yhden ominaisuuden arvo kasvaa, havaitaan toisen lisäystä (positiivinen korrelaatio);
- negatiivinen arvo – jos yhden ominaisuuden arvo kasvaa, havaitaan toisen lasku (negatiivinen korrelaatio);
- indikaattorin arvon lähestyminen ääripisteisiin (joko -1 tai +1) osoittaa erittäin vahvan lineaarisen suhteen olemassaolon;
- ominaisuuden indikaattorit voivat muuttua kertoimen arvon pysyessä muuttumattomana;
- korrelaatiokerroin on dimensioton suure;
- korrelaation olemassaolo ei välttämättä vahvista syy-seuraussuhdetta.
Korrelaatiokertoimen arvot
Korrelaation vahvuutta voidaan luonnehtia turvautumalla Cheldockin asteikkoon, jossa tietty numeerinen arvo vastaa kvalitatiivista ominaisuutta.
Jos arvon kanssa on positiivinen korrelaatio:
- 0-0,3 – korrelaatio on erittäin heikko;
- 0,3-0,5 - heikko;
- 0,5-0,7 - keskivahvuus;
- 0,7-0,9 – korkea;
- 0,9-1 – erittäin korkea korrelaatiovahvuus.
Asteikkoa voidaan käyttää myös negatiiviseen korrelaatioon. Tässä tapauksessa laadulliset ominaisuudet korvataan vastakkaisilla.
Voit käyttää yksinkertaistettua Cheldock-asteikkoa, joka erottaa vain 3 korrelaation vahvuuden asteikkoa:
- erittäin vahva - indikaattorit ±0,7 - ±1;
- keskiarvo - indikaattorit ±0,3 - ±0,699;
- erittäin heikko - indikaattorit 0 - ±0,299.
Tämän tilastollisen indikaattorin avulla voidaan paitsi testata oletusta ominaisuuksien välisen lineaarisen suhteen olemassaolosta, myös määrittää sen vahvuus.
Korrelaatiokertoimen tyypit
Korrelaatiokertoimet voidaan luokitella etumerkin ja arvon mukaan:
- positiivinen;
- tyhjä;
- negatiivinen.
Analysoiduista arvoista riippuen kerroin lasketaan:
- Pearson;
- Spearman;
- Kendal;
- Fechner merkkejä;
- konkordanssi tai moniarvoinen korrelaatio.
Pearson-korrelaatiokerrointa käytetään määrittämään suoria suhteita muuttujien absoluuttisten arvojen välille. Tässä tapauksessa molempien muuttujasarjojen jakaumien tulisi lähestyä normaalia. Vertailtavien muuttujien tulee erota samassa määrässä vaihtelevia ominaisuuksia. Muuttujia edustavan asteikon on oltava intervalli- tai suhdeasteikko.
- korrelaation vahvuuden määrittäminen tarkasti;
- määrällisten ominaisuuksien vertailu.
Lineaarisen Pearson-korrelaatiokertoimen käyttämisessä on muutamia haittoja:
- menetelmä on epävakaa numeeristen arvojen poikkeavuuksien tapauksessa;
- Tällä menetelmällä on mahdollista määrittää korrelaation vahvuus vain lineaariselle suhteelle muun tyyppisille muuttujien keskinäisille suhteille, tulee käyttää regressioanalyysimenetelmiä.
Rankkorrelaatio määritetään Spearmanin menetelmällä, jonka avulla voidaan tilastollisesti tutkia ilmiöiden välistä suhdetta. Tämän kertoimen ansiosta lasketaan kahden kvantitatiivisesti ilmaistun ominaisuussarjan todellinen rinnakkaisuusaste ja arvioidaan myös tunnistetun liitoksen tiiviys.
- ei vaadi korrelaatiovoiman arvon tarkkaa määritystä;
- verratuilla indikaattoreilla on sekä kvantitatiivisia että attribuuttisia merkityksiä;
- ominaisuussarjojen vertailu avoimiin arvomuunnelmiin.
Spearmanin menetelmä on ei-parametrinen analyysimenetelmä, joten ominaisuuden jakauman normaalia ei tarvitse tarkistaa. Lisäksi sen avulla voit vertailla eri asteikoilla ilmaistuja indikaattoreita. Esimerkiksi punasolujen määrän vertailu tietyssä veritilavuudessa (jatkuva asteikko) ja asiantuntija-arvio pisteinä (järjestysasteikko).
Menetelmän tehokkuuteen vaikuttaa negatiivisesti suuri ero vertailuarvojen välillä. Menetelmä ei myöskään ole tehokas tapauksissa, joissa mitatulle arvolle on ominaista arvojen epätasainen jakautuminen.
Vaiheittainen korrelaatiokertoimen laskenta Excelissä
Korrelaatiokertoimen laskeminen edellyttää useiden matemaattisten operaatioiden suorittamista peräkkäin.
Yllä oleva kaava Pearson-kertoimen laskemiseksi osoittaa, kuinka työläs tämä prosessi on, jos se tehdään manuaalisesti.
Excelin ominaisuuksien käyttö nopeuttaa kertoimen löytämistä merkittävästi.
Riittää, kun seuraat yksinkertaista toiminta-algoritmia:
- perustietojen syöttäminen - x-arvojen sarake ja y-arvojen sarake;
- valitse työkaluista ja avaa "Kaavat"-välilehti;
- valitse avautuvasta välilehdestä "Lisää fx-toiminto";
- valitse avautuvasta valintaikkunasta "Corel" -tilastofunktio, jonka avulla voit laskea korrelaatiokertoimen 2 tietojoukon välillä;
- kirjoita avautuvaan ikkunaan tiedot: taulukko 1 - sarakkeen x arvoalue (tiedot on valittava), taulukko 2 - sarakkeen y arvoalue;
- "ok"-näppäintä painetaan, kertoimen laskennan tulos näkyy "arvo"-rivillä;
- johtopäätös korrelaation olemassaolosta kahden tietojoukon ja sen vahvuuden välillä.
Korrelaatiokerroin heijastaa kahden indikaattorin välisen suhteen astetta. Se saa aina arvon -1:stä 1:een. Jos kerroin sijaitsee noin 0, muuttujien välillä ei ole yhteyttä.
Jos arvo on lähellä yhtä (esim. 0,9:stä), havaittujen kohteiden välillä on vahva suora yhteys. Jos kerroin on lähellä alueen toista ääripistettä (-1), muuttujien välillä on vahva käänteinen suhde. Kun arvo on jossain välillä 0 - 1 tai 0 - -1, kyseessä on heikko yhteys (suora tai käänteinen). Tätä suhdetta ei yleensä oteta huomioon: uskotaan, että sitä ei ole olemassa.
Korrelaatiokertoimen laskenta Excelissä
Tarkastellaan esimerkin avulla korrelaatiokertoimen laskentamenetelmiä, muuttujien välisten suorien ja käänteisten suhteiden ominaisuuksia.
Indikaattorien x ja y arvot:
Y on riippumaton muuttuja, x on riippuvainen muuttuja. On tarpeen löytää niiden välisen yhteyden vahvuus (vahva/heikko) ja suunta (eteenpäin/käänteinen). Korrelaatiokertoimen kaava näyttää tältä:
Jotta se olisi helpompi ymmärtää, jaetaan se useisiin yksinkertaisiin osiin.
Muuttujien välille määräytyy vahva suora yhteys.
Sisäänrakennettu CORREL-toiminto välttää monimutkaiset laskelmat. Lasketaan parin korrelaatiokerroin Excelissä sen avulla. Kutsu toimintovelho. Löydämme tarvitsemamme. Funktioargumentit ovat joukko y-arvoja ja joukko x-arvoja:
Näytetään muuttujien arvot kaaviossa:
Vahva yhteys y:n ja x:n välillä on näkyvissä, koska viivat kulkevat lähes yhdensuuntaisesti toistensa kanssa. Suhde on suora: y kasvaa - x kasvaa, y laskee - x pienenee.
Parikorrelaatiokerroinmatriisi Excelissä
Korrelaatiomatriisi on rivien ja sarakkeiden leikkauspisteessä oleva taulukko, jonka vastaavien arvojen väliset korrelaatiokertoimet sijaitsevat. On järkevää rakentaa se useille muuttujille.
Excelin korrelaatiokertoimien matriisi muodostetaan "Data Analysis" -paketin "Korrelaatio"-työkalulla.
Y:n ja x1:n arvojen välillä havaittiin vahva suora yhteys. Välillä x1 ja x2 on voimakas takaisinkytkentä. Ei käytännössä ole yhteyttä sarakkeen x3 arvoihin.