05.03.2024

Kaip apskaičiuoti koreliacijos koeficientą. Koreliacijos koeficientai. „Excel“ naudojimas koreliacijos koeficientams apskaičiuoti


Pastebėti! Jūsų konkrečios problemos sprendimas atrodys panašiai kaip šiame pavyzdyje, įskaitant visas toliau pateiktas lenteles ir aiškinamuosius tekstus, tačiau atsižvelgiant į jūsų pradinius duomenis...

Užduotis:
Yra susijęs 26 reikšmių porų pavyzdys (x k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Būtina apskaičiuoti/nubraižyti:
- koreliacijos koeficientas;
- patikrinti atsitiktinių dydžių X ir Y priklausomybės hipotezę, esant α = 0,05 reikšmingumo lygiui;
- tiesinės regresijos lygties koeficientai;
- sklaidos diagrama (koreliacijos laukas) ir regresijos linijos grafikas;

SPRENDIMAS:

1. Apskaičiuokite koreliacijos koeficientą.

Koreliacijos koeficientas yra dviejų atsitiktinių dydžių abipusės tikimybinės įtakos rodiklis. Koreliacijos koeficientas R gali imti vertes iš -1 prieš +1 . Jei absoliuti vertė yra arčiau 1 , tai yra tvirto ryšio tarp kiekių įrodymas, o jei arčiau 0 - tada tai rodo silpną ryšį arba jo nebuvimą. Jei absoliuti vertė R lygus vienam, tada galime kalbėti apie funkcinį ryšį tarp dydžių, tai yra, vienas dydis gali būti išreikštas per kitą, naudojant matematinę funkciją.


Koreliacijos koeficientą galima apskaičiuoti naudojant šias formules:
n
Σ
k = 1
(x k -M x) 2, σ y 2 =
Mx =
1
n
n
Σ
k = 1
xk, M y =

arba pagal formulę

Rx, y =
M xy – M x M y
S x S y
(1.4), kur:
Mx =
1
n
n
Σ
k = 1
xk, M y =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 – M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 – m y 2 (1,6)

Praktikoje koreliacijos koeficientui apskaičiuoti dažniau naudojama formulė (1.4), nes tai reikalauja mažiau skaičiavimo. Tačiau jei anksčiau buvo apskaičiuota kovariacija cov (X, Y), tada naudingiau naudoti formulę (1.1), nes Be pačios kovariacijos vertės, taip pat galite naudoti tarpinių skaičiavimų rezultatus.

1.1 Apskaičiuokime koreliacijos koeficientą pagal formulę (1.4) Norėdami tai padaryti, apskaičiuojame x k 2, y k 2 ir x k y k reikšmes ir įrašome jas į 1 lentelę.

1 lentelė


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Apskaičiuokime M x pagal formulę (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750 000

1.3. Panašiai apskaičiuokime M y.

1.3.1. Sudėkime visus elementus paeiliui y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Gautą sumą padalinkite iš imties elementų skaičiaus

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Panašiai apskaičiuojame M xy.

1.4.1. Sudėkime iš eilės visus 1 lentelės 6 stulpelio elementus

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Gautą sumą padalinkite iš elementų skaičiaus

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Apskaičiuokime S x 2 reikšmę pagal formulę (1.6.).

1.5.1. Sudėkime iš eilės visus 1 lentelės 4 stulpelio elementus

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Gautą sumą padalinkite iš elementų skaičiaus

17256.91000 / 26 = 663.72731

1.5.3. Iš paskutinio skaičiaus atimkite kvadratą M x, kad gautumėte S x 2 reikšmę

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Apskaičiuokime S y 2 reikšmę pagal (1.6.) formulę..

1.6.1. Sudėkime iš eilės visus 1 lentelės 5 stulpelio elementus

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Gautą sumą padalinkite iš elementų skaičiaus

24191.84000 / 26 = 930.45538

1.6.3. Iš paskutinio skaičiaus atimkite M y kvadratą, kad gautumėte S y 2 reikšmę

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Apskaičiuokime dydžių S x 2 ir S y 2 sandaugą.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Paimkime paskutinio skaičiaus kvadratinę šaknį ir gaukime reikšmę S x S y.

S x S y = 0,36951

1.9. Koreliacijos koeficiento reikšmę apskaičiuokime pagal (1.4.) formulę..

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ATSAKYMAS: R x,y = -0,720279

2. Tikriname koreliacijos koeficiento reikšmingumą (tikriname priklausomybės hipotezę).

Kadangi koreliacijos koeficiento įvertis apskaičiuojamas baigtinėje imtyje ir todėl gali nukrypti nuo jos populiacijos vertės, būtina patikrinti koreliacijos koeficiento reikšmingumą. Patikrinimas atliekamas naudojant t-testą:

t =
Rx, y
n - 2
1 – R 2 x,y
(2.1)

Atsitiktinė vertė t vadovaujasi Stjudento t skirstiniu ir naudojant t pasiskirstymo lentelę reikia rasti kriterijaus reikšmę (t cr.α) esant duotam reikšmingumo lygiui α. Jei pagal (2.1) formulę apskaičiuotas t absoliučia reikšme pasirodo mažesnis už t cr.α , tai tarp atsitiktinių dydžių X ir Y nėra priklausomybės. Priešingu atveju eksperimentiniai duomenys neprieštarauja hipotezei apie atsitiktinių dydžių priklausomybę.


2.1. Apskaičiuokime t kriterijaus reikšmę pagal formulę (2.1) ir gaukime:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Naudodamiesi t pasiskirstymo lentele, nustatome kritinę parametro reikšmę t cr.α

Norima tcr.α reikšmė yra laisvės laipsnių skaičių atitinkančios eilutės ir duotą reikšmingumo lygį α atitinkančios stulpelio sankirtoje.
Mūsų atveju laisvės laipsnių skaičius yra n - 2 = 26 - 2 = 24 ir α = 0.05 , kuri atitinka kriterijaus t cr reikšmę.α = 2.064 (žr. 2 lentelę)

2 lentelė t-paskirstymas

Laisvės laipsnių skaičius
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Palyginkime absoliučią t kriterijaus reikšmę ir t cr.α

Absoliuti t kriterijaus reikšmė yra ne mažesnė už kritinę reikšmę t = 5,08680, t cr.α = 2,064, todėl eksperimentiniai duomenys, su 0,95 tikimybe(1 – α), neprieštarauja hipotezei apie atsitiktinių dydžių X ir Y priklausomybę.

3. Apskaičiuokite tiesinės regresijos lygties koeficientus.

Tiesinės regresijos lygtis – tai tiesės lygtis, kuri apytiksliai (apytiksliai apibūdina) atsitiktinių dydžių X ir Y ryšį. Jei manysime, kad reikšmė X yra laisva ir Y priklauso nuo X, regresijos lygtis bus parašyta kaip seka


Y = a + b X (3.1), kur:

b =Rx, y
σy
σ x
= Rx, y
S y
S x
(3.2),
a = M y - b M x (3.3)

Koeficientas, apskaičiuotas pagal (3.2) formulę b vadinamas tiesinės regresijos koeficientu. Kai kuriuose šaltiniuose a vadinamas pastoviu regresijos koeficientu ir b pagal kintamuosius.

Klaidos numatant Y tam tikrai reikšmei X apskaičiuojamos naudojant formules:

Taip pat vadinamas dydis σ y/x (3.4 formulė). liekamasis standartinis nuokrypis, jis apibūdina vertės Y nukrypimą nuo regresijos tiesės, aprašytos (3.1) lygtimi, esant fiksuotai (duotai) X vertei.

.
Sy 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Paimkime kvadratinę šaknį iš paskutinio skaičiaus ir gaukime:
S y / S x = 0,55582

3.3 Apskaičiuokime koeficientą b pagal (3.2) formulę

b = -0.72028 0.55582 = -0.40035

3.4 Apskaičiuokime koeficientą a pagal (3.3) formulę

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Įvertinkime regresijos lygties paklaidas.

3.5.1 Paėmę kvadratinę šaknį iš S y 2 gauname:

= 0.31437
3.5.4 Apskaičiuokime santykinę paklaidą naudodami (3.5) formulę

δ y/x = (0,31437 / 30,50000)100 % = 1,03073 %

4. Sudarome sklaidos diagramą (koreliacijos lauką) ir regresijos tiesių grafiką.

Taškinė diagrama yra grafinis atitinkamų porų (x k, y k) kaip taškų plokštumoje, stačiakampių koordinačių su X ir Y ašimis, vaizdas. Regresijos linijos grafikas taip pat brėžiamas toje pačioje koordinačių sistemoje. Masteliai ir pradžios taškai ant ašių turi būti parinkti atsargiai, kad diagrama būtų kuo aiškesnė.

4.1. Raskite minimalų ir maksimalų imties elementą X yra atitinkamai 18 ir 15 elementai, x min = 22.10000 ir x max = 26.60000.

4.2. Mes nustatome, kad mažiausias ir didžiausias imties Y elementai yra atitinkamai 2 ir 18 elementai, y min = 29,40000 ir y max = 31,60000.

4.3. X ašyje pasirinkite pradinį tašką, esantį šiek tiek į kairę nuo taško x 18 = 22,10000, ir tokią skalę, kad taškas x 15 = 26,60000 tilptų ašyje, o likę taškai būtų aiškiai matomi.

4.4. Ordinačių ašyje pasirinkite pradinį tašką, esantį šiek tiek į kairę nuo taško y 2 = 29,40000, ir tokią skalę, kad taškas y 18 = 31,60000 tilptų ašyje, o likę taškai būtų aiškiai atskirti.

4.5. Ant abscisių ašies dedame x k reikšmes, o ant ordinačių ašies – y k reikšmes.

4.6. Taškus (x 1, y 1), (x 2, y 2),…, (x 26, y 26) nubraižome koordinačių plokštumoje. Gauname sklaidos diagramą (koreliacijos lauką), parodytą paveikslėlyje žemiau.

4.7. Nubrėžkime regresijos liniją.

Norėdami tai padaryti, rasime du skirtingus taškus, kurių koordinatės (x r1, y r1) ir (x r2, y r2) atitinka (3.6) lygtį, nubraižysime juos koordinačių plokštumoje ir per juos nubrėžsime tiesę. Kaip pirmojo taško abscisę imame reikšmę x min = 22,10000. Pakeitę reikšmę x min į (3.6) lygtį, gauname pirmojo taško ordinates. Taigi turime tašką su koordinatėmis (22.10000, 31.96127). Panašiu būdu gauname antrojo taško koordinates, abscisę pateikdami reikšmę x max = 26,60000. Antrasis taškas bus: (26.60000, 30.15970).

Regresijos linija žemiau esančiame paveikslėlyje parodyta raudona spalva

Atkreipkite dėmesį, kad regresijos linija visada eina per X ir Y vidutinių verčių tašką, t.y. su koordinatėmis (M x , M y).

Koreliacinės analizės tikslas yra nustatyti ryšio stiprumo tarp atsitiktinių dydžių (požymių), apibūdinančių kokį nors realų procesą, įvertinimą.
Koreliacinės analizės problemos:
a) Dviejų ar daugiau reiškinių darnos (artumo, stiprumo, sunkumo, intensyvumo) matavimas.
b) Veiksnių, turinčių didžiausią įtaką gaunamam požymiui, pasirinkimas, remiantis reiškinių ryšio laipsnio matavimu. Šiuo aspektu reikšmingi veiksniai toliau naudojami regresinėje analizėje.
c) Nežinomų priežastinių ryšių nustatymas.

Santykių pasireiškimo formos yra labai įvairios. Labiausiai paplitę tipai yra funkciniai (išbaigti) ir koreliacinis (neišsamus) ryšys.
Koreliacija pasireiškia vidutiniškai masės stebėjimams, kai nurodytos priklausomo kintamojo reikšmės atitinka tam tikrą nepriklausomo kintamojo tikimybinių verčių seriją. Santykis vadinamas koreliacija, jei kiekviena faktoriaus charakteristikos reikšmė atitinka tiksliai apibrėžtą neatsitiktinę gaunamos charakteristikos reikšmę.
Vaizdinis koreliacijos lentelės vaizdas yra koreliacijos laukas. Tai grafikas, kuriame X reikšmės pavaizduotos ant abscisių ašies, Y reikšmės vaizduojamos ant ordinačių ašies, o X ir Y deriniai rodomi taškais pagal taškų vietą ryšio.
Ryšio glaudumo rodikliai leidžia apibūdinti gauto požymio kitimo priklausomybę nuo faktorinio požymio kitimo.
Pažangesnis susigrūdimo laipsnio rodiklis koreliacinis ryšys yra tiesinės koreliacijos koeficientas. Skaičiuojant šį rodiklį, atsižvelgiama ne tik į atskirų charakteristikų verčių nuokrypius nuo vidurkio, bet ir į patį šių nuokrypių dydį.

Pagrindiniai šios temos klausimai yra regresijos ryšio tarp efektyviosios charakteristikos ir aiškinamojo kintamojo lygtys, mažiausių kvadratų metodas regresijos modelio parametrams įvertinti, gautos regresijos lygties kokybės analizė, pasikliautinųjų intervalų sudarymas prognozavimui. efektyviosios charakteristikos vertės naudojant regresijos lygtį.

2 pavyzdys


Normaliųjų lygčių sistema.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Mūsų duomenims lygčių sistema turi formą
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iš pirmosios lygties išreiškiame A ir pakeiskite antrąja lygtimi:
Gauname b = -3,46, a = 1379,33
Regresijos lygtis:
y = -3,46 x + 1379,33

2. Regresijos lygties parametrų skaičiavimas.
Pavyzdys reiškia.



Pavyzdžių nuokrypiai:


Standartinis nuokrypis


1.1. Koreliacijos koeficientas
Kovariacija.

Apskaičiuojame ryšio glaudumo rodiklį. Šis rodiklis yra imties linijinės koreliacijos koeficientas, kuris apskaičiuojamas pagal formulę:

Linijinės koreliacijos koeficiento reikšmės yra nuo –1 iki +1.
Ryšiai tarp charakteristikų gali būti silpni ir stiprūs (glaudūs). Jų kriterijai vertinami Chaddock skalėje:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Mūsų pavyzdyje ryšys tarp Y bruožo ir faktoriaus X yra didelis ir atvirkštinis.
Be to, tiesinės poros koreliacijos koeficientą galima nustatyti naudojant regresijos koeficientą b:

1.2. Regresijos lygtis(regresijos lygties įvertinimas).

Tiesinės regresijos lygtis yra y = -3,46 x + 1379,33

Koeficientas b = -3,46 rodo vidutinį efektyvaus rodiklio pokytį (matavimo vienetais y) didėjant arba mažėjant faktoriaus x reikšmei jo matavimo vienetui. Šiame pavyzdyje, padidėjus 1 vienetu, y vidutiniškai sumažėja -3,46.
Koeficientas a = 1379,33 formaliai parodo numatomą y lygį, bet tik tuo atveju, jei x = 0 yra artimas imties reikšmėms.
Bet jei x=0 yra toli nuo x imties verčių, pažodinis aiškinimas gali lemti neteisingus rezultatus ir net jei regresijos linija gana tiksliai apibūdina stebimas imties reikšmes, nėra garantijos, kad tai taip pat bus taip būtų ekstrapoliuojant į kairę arba į dešinę.
Pakeitę atitinkamas x reikšmes į regresijos lygtį, galime nustatyti kiekvieno stebėjimo išlygintas (numatomas) našumo rodiklio y(x) reikšmes.
Ryšys tarp y ir x lemia regresijos koeficiento b ženklą (jei > 0 – tiesioginis ryšys, kitu atveju – atvirkštinis). Mūsų pavyzdyje ryšys yra atvirkštinis.
1.3. Elastingumo koeficientas.
Nerekomenduojama naudoti regresijos koeficientų (b pavyzdyje), norint tiesiogiai įvertinti faktorių įtaką rezultatinei charakteristikai, jei skiriasi gaunamo rodiklio y ir faktoriaus charakteristikos x matavimo vienetai.
Šiems tikslams apskaičiuojami elastingumo koeficientai ir beta koeficientai.
Vidutinis elastingumo koeficientas E parodo, kiek procentų vidutiniškai pasikeis rezultatas suvestinėje adresu nuo jo vidutinės vertės pasikeitus veiksniui x 1% jo vidutinės vertės.
Tamprumo koeficientas randamas pagal formulę:


Tamprumo koeficientas yra mažesnis nei 1. Todėl, jei X pasikeis 1%, Y pasikeis mažiau nei 1%. Kitaip tariant, X įtaka Y nėra reikšminga.
Beta koeficientas parodo, kokia jo standartinio nuokrypio vertės dalimi pasikeis gautos charakteristikos vidutinė reikšmė, kai faktoriaus charakteristika pasikeis jos standartinio nuokrypio dydžiu su likusių nepriklausomų kintamųjų verte, fiksuota pastoviame lygyje:

Tie. x padidėjimas standartiniu nuokrypiu S x lems vidutinės Y reikšmės sumažėjimą 0,74 standartinio nuokrypio S y.
1.4. Aproksimacijos klaida.
Įvertinkime regresijos lygties kokybę naudodami absoliučios aproksimacijos paklaidą. Vidutinė apytikslė paklaida - vidutinis apskaičiuotų verčių nuokrypis nuo faktinių:


Kadangi paklaida yra mažesnė nei 15%, šią lygtį galima naudoti kaip regresiją.
Dispersijos analizė.
Dispersijos analizės tikslas yra išanalizuoti priklausomo kintamojo dispersiją:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Kur
∑(y i - y cp) 2 - bendra kvadratinių nuokrypių suma;
∑(y(x) - y cp) 2 - nuokrypių kvadratu suma dėl regresijos ("paaiškinta" arba "fakcinė");
∑(y - y(x)) 2 - likutinė kvadratinių nuokrypių suma.
Teorinis koreliacinis ryšys tiesiniam ryšiui lygus koreliacijos koeficientui r xy .
Bet kokios formos priklausomybei jungties sandarumas nustatomas naudojant daugkartinis koreliacijos koeficientas:

Šis koeficientas yra universalus, nes atspindi ryšio glaudumą ir modelio tikslumą, taip pat gali būti naudojamas bet kokiai kintamųjų ryšio formai. Konstruojant vieno veiksnio koreliacijos modelį, daugkartinės koreliacijos koeficientas yra lygus poros koreliacijos koeficientui r xy.
1.6. Determinacijos koeficientas.
(Kelių) koreliacijos koeficiento kvadratas vadinamas determinacijos koeficientu, kuris parodo gauto požymio kitimo proporciją, paaiškinamą faktoriaus požymio kitimu.
Dažniausiai, aiškinant determinacijos koeficientą, jis išreiškiamas procentais.
R2 = -0,742 = 0,5413
tie. 54,13% atvejų x pokyčiai lemia y pokyčius. Kitaip tariant, regresijos lygties pasirinkimo tikslumas yra vidutinis. Likę 45,87 % Y pokyčio paaiškinami veiksniais, į kuriuos modelyje neatsižvelgta.

Bibliografija

  1. Ekonometrija: vadovėlis / Red. I.I. Elizieva. – M.: Finansai ir statistika, 2001, p. 34..89.
  2. Magnusas Y.R., Katyshevas P.K., Peresetskis A.A. Ekonometrija. Pradedantysis kursas. Pamoka. – 2 leidimas, red. – M.: Delo, 1998, p. 17..42 val.
  3. Ekonometrijos seminaras: Proc. pašalpa / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko ir kiti; Red. I.I. Elizieva. – M.: Finansai ir statistika, 2001, p. 5..48.

2018-06-06 16 235 0 Igoris

Psichologija ir visuomenė

Viskas pasaulyje yra tarpusavyje susiję. Kiekvienas žmogus intuicijos lygmenyje bando rasti ryšius tarp reiškinių, kad galėtų juos paveikti ir kontroliuoti. Sąvoka, atspindinti šį ryšį, vadinama koreliacija. Ką tai reiškia paprastais žodžiais?

Turinys:

Koreliacijos samprata

Koreliacija (iš lotyniško „correlatio“ - santykis, santykis)– matematinis terminas, reiškiantis statistinės tikimybinės priklausomybės tarp atsitiktinių dydžių (kintamųjų) matą.



Pavyzdys: Paimkime dviejų tipų santykius:

  1. Pirmas- rašiklis žmogaus rankoje. Kuria kryptimi juda ranka, ta kryptimi eina rašiklis. Jei ranka yra ramybės būsenoje, rašiklis nerašys. Jei žmogus jį paspaus šiek tiek stipriau, žymė popieriuje bus sodresnė. Šio tipo santykiai atspindi griežtą priklausomybę ir nėra koreliaciniai. Šis ryšys yra funkcionalus.
  2. Antrasis tipas– asmens išsilavinimo lygio ir literatūros skaitymo santykis. Iš anksto nežinia, kurie žmonės skaito daugiau: turintys aukštąjį išsilavinimą ar neturintys. Šis ryšys yra atsitiktinis arba stochastinis, jį tyrinėja statistikos mokslas, nagrinėjantis tik masinius reiškinius. Jei statistinis skaičiavimas leidžia įrodyti išsilavinimo lygio ir literatūros skaitymo koreliaciją, tai leis daryti bet kokias prognozes ir numatyti tikimybinį įvykių pasireiškimą. Šiame pavyzdyje su didele tikimybe galima teigti, kad žmonės, turintys aukštąjį išsilavinimą, labiau išsilavinę, skaito daugiau knygų. Tačiau kadangi ryšys tarp šių parametrų neveikia, galime klysti. Visada galite apskaičiuoti tokios klaidos tikimybę, kuri bus aiškiai maža ir vadinama statistinio reikšmingumo lygiu (p).

Santykių tarp gamtos reiškinių pavyzdžiai: maisto grandinė gamtoje, žmogaus kūnas, susidedantis iš organų sistemų, kurios yra tarpusavyje susijusios ir veikia kaip viena visuma.

Kasdien susiduriame su koreliacijomis kasdienybėje: tarp oro ir geros nuotaikos, teisingo tikslų formulavimo ir jų pasiekimo, teigiamo požiūrio ir sėkmės, laimės jausmo ir finansinės gerovės. Bet mes ieškome sąsajų, pasikliaudami ne matematiniais skaičiavimais, o mitais, intuicija, prietarais ir tuščiomis spekuliacijomis. Šiuos reiškinius labai sunku išversti į matematinę kalbą, išreikšti skaičiais ir išmatuoti. Kitas reikalas, kai analizuojame reiškinius, kuriuos galima apskaičiuoti ir pateikti skaičių pavidalu. Šiuo atveju koreliaciją galime apibrėžti naudodami koreliacijos koeficientą (r), kuris atspindi atsitiktinių dydžių koreliacijos stiprumą, laipsnį, artumą ir kryptį.

Stipri koreliacija tarp atsitiktinių dydžių- įrodymai, kad tarp šių reiškinių egzistuoja tam tikras statistinis ryšys, tačiau šis ryšys negali būti perkeltas į tuos pačius reiškinius, bet skirtinga situacija. Dažnai tyrėjai, savo skaičiavimuose gavę reikšmingą koreliaciją tarp dviejų kintamųjų, remdamiesi koreliacinės analizės paprastumu, daro klaidingas intuityvias prielaidas apie priežasties ir pasekmės ryšių egzistavimą tarp charakteristikų, pamiršdami, kad koreliacijos koeficientas yra tikimybinio pobūdžio. .

Pavyzdys:žmonių, sužalotų ledo sąlygomis, ir kelių eismo įvykių tarp motorinių transporto priemonių skaičius. Šie dydžiai koreliuos vienas su kitu, nors jie absoliučiai nėra tarpusavyje susiję, o turi ryšį tik su bendra šių atsitiktinių įvykių priežastimi – juoduoju ledu. Jei analizė neatskleidžia koreliacijos tarp reiškinių, tai dar nėra įrodymas, kad tarp jų nėra priklausomybės, kuri gali būti sudėtinga netiesinė ir neatskleista koreliacijos skaičiavimais.




Pirmieji koreliacijos sąvoką į mokslinę vartoseną įvedė prancūzai paleontologas Georgesas Cuvier. XVIII amžiuje jis išvedė gyvų organizmų dalių ir organų koreliacijos dėsnį, kurio dėka iš rastų kūno dalių (palaikų) atsirado galimybė atkurti viso fosilinio padaro, gyvūno, išvaizdą. Statistikoje koreliacijos terminą 1886 m. pirmą kartą pavartojo anglų mokslininkas Pranciškus Galtonas. Bet jis negalėjo gauti tikslios koreliacijos koeficiento apskaičiavimo formulės, tačiau jo mokinys tai padarė - žinomas matematikas ir biologas Karlas Pearsonas.

Koreliacijos tipai

Pagal svarbą– labai reikšmingas, reikšmingas ir nereikšmingas.

Rūšys

kam r lygus

Labai reikšmingas

r atitinka statistinio reikšmingumo lygį p<=0,01

Reikšmingas

r atitinka p<=0,05

Nereikšmingas

r nesiekia p>0,1

Neigiamas(vieno kintamojo vertės sumažėjimas lemia kito lygio padidėjimą: kuo daugiau fobijų žmogus turi, tuo mažesnė tikimybė, kad jis užimtų lyderio poziciją) ir teigiamas (jeigu vieno kintamojo padidėjimas lemia padidėjimą kito lygmenyje: kuo labiau nervinatės, tuo didesnė tikimybė susirgti). Jei tarp kintamųjų nėra ryšio, tada tokia koreliacija vadinama nuliu.

Linijinis(kai vienai reikšmei didėja arba mažėja, antra taip pat didėja arba mažėja) ir netiesinė (kai pasikeitus vienai reikšmei, antrosios pokyčio pobūdis negali būti apibūdintas naudojant tiesinį ryšį, tada taikomi kiti matematiniai dėsniai – daugianario, hiperbolinio santykiai).

Pagal jėgą.

Šansai




Priklausomai nuo to, kuriai skalei priklauso tiriamieji kintamieji, apskaičiuojami įvairių tipų koreliacijos koeficientai:

  1. Pirsono koreliacijos koeficientas, porinės tiesinės koreliacijos koeficientas arba sandaugos momentų koreliacija apskaičiuojama kintamiesiems su intervalų ir skalės matavimo skalėmis.
  2. Spearman arba Kendall rango koreliacijos koeficientas – kai bent vienas iš dydžių turi eilės skalę arba nėra normaliai pasiskirstęs.
  3. Taškų biserinės koreliacijos koeficientas (Fechnerio ženklo koreliacijos koeficientas) – jei vienas iš dviejų dydžių yra dichotominis.
  4. Keturių laukų koreliacijos koeficientas (kelių rangų koreliacijos (atitikties) koeficientas – jei du kintamieji yra dichotomiški.

Pearsono koeficientas nurodo parametrinės koreliacijos rodiklius, visi kiti yra neparametriniai.

Koreliacijos koeficiento reikšmė svyruoja nuo -1 iki +1. Esant visiškai teigiamai koreliacijai, r = +1, esant visiškai neigiamai koreliacijai, r = -1.

Formulė ir skaičiavimas





Pavyzdžiai

Būtina nustatyti ryšį tarp dviejų kintamųjų: mokinių intelektualinio išsivystymo lygio (pagal testavimą) ir vėlavimų skaičiaus per mėnesį (pagal įrašus ugdymo žurnale).

Pradiniai duomenys pateikti lentelėje:

IQ duomenys (x)

Duomenys apie vėlavimų skaičių (y)

Suma

1122

Vidutinis

112,2


Norint teisingai interpretuoti gautą rodiklį, būtina išanalizuoti koreliacijos koeficiento ženklą (+ arba -) ir jo absoliučią reikšmę (modulo).

Pagal koreliacijos koeficiento klasifikavimo pagal stiprumą lentelę darome išvadą, kad rxy = -0,827 yra stipri neigiama koreliacija. Taigi vėluojančių moksleivių skaičius labai stipriai priklauso nuo jų intelektinio išsivystymo lygio. Galima teigti, kad mokiniai, kurių IQ lygis aukštas, vėluoja į pamokas rečiau nei mokiniai, kurių IQ lygis žemas.



Koreliacijos koeficientą gali naudoti tiek mokslininkai, kad patvirtintų arba paneigtų dviejų dydžių ar reiškinių priklausomybės prielaidą ir išmatuotų jos stiprumą bei reikšmingumą, tiek studentai, atlikdami įvairių dalykų empirinius ir statistinius tyrimus. Reikia atsiminti, kad šis rodiklis nėra idealus įrankis, jis skaičiuojamas tik tiesinio ryšio stiprumui matuoti ir visada bus tikimybinė vertė, turinti tam tikrą paklaidą.

Koreliacinė analizė naudojama šiose srityse:

  • ekonomikos mokslas;
  • astrofizika;
  • socialiniai mokslai (sociologija, psichologija, pedagogika);
  • agrochemija;
  • metalurgija;
  • pramonė (kokybės kontrolei);
  • hidrobiologija;
  • biometriniai duomenys ir kt.

Koreliacinės analizės metodo populiarumo priežastys:

  1. Santykinis koreliacijos koeficientų skaičiavimo paprastumas nereikalauja specialaus matematinio išsilavinimo.
  2. Leidžia apskaičiuoti ryšius tarp masinių atsitiktinių dydžių, kurie yra statistikos mokslo analizės objektas. Šiuo atžvilgiu šis metodas tapo plačiai paplitęs statistinių tyrimų srityje.

Tikiuosi, kad dabar sugebėsite atskirti funkcinį ryšį nuo koreliacinio ir žinosite, kad kai girdite per televiziją ar skaitote spaudoje apie koreliaciją, tai reiškia teigiamą ir gana reikšmingą dviejų reiškinių tarpusavio priklausomybę.

Įvairūs ženklai gali būti susiję vienas su kitu.

Tarp jų yra 2 jungčių tipai:

  • funkcinis;
  • koreliacija.

Koreliacija išvertus į rusų kalbą yra ne kas kita, kaip ryšys.
Koreliacinio ryšio atveju galima atsekti kelių vienos charakteristikos verčių atitikimą kelioms kitos charakteristikos reikšmėms. Kaip pavyzdžius galime apsvarstyti nustatytas koreliacijas tarp:

  • paukščių, tokių kaip garniai, gervės ir gandrai, letenų, kaklų ir snapų ilgis;
  • kūno temperatūros ir širdies ritmo rodikliai.

Daugumos biomedicininių procesų atveju tokio ryšio buvimas buvo statistiškai įrodytas.

Statistiniai metodai leidžia nustatyti charakteristikų tarpusavio priklausomybės egzistavimo faktą. Tam panaudojus specialius skaičiavimus, nustatomi koreliacijos koeficientai (jungiamumo matai).

Tokie skaičiavimai vadinami koreliacinė analizė. Jis atliekamas siekiant patvirtinti 2 kintamųjų (atsitiktinių dydžių) priklausomybę vienas nuo kito, kuri išreiškiama koreliacijos koeficientu.

Koreliacijos metodo naudojimas leidžia išspręsti keletą problemų:

  • nustatyti ryšio tarp analizuojamų parametrų buvimą;
  • žinios apie koreliacijos buvimą leidžia spręsti prognozavimo problemas. Taigi, remiantis kito koreliuojančio parametro elgesio analize, yra reali galimybė numatyti parametro elgesį;
  • Klasifikavimas, pagrįstas vienas nuo kito nepriklausomų požymių parinkimu.

Kintamiesiems:

  • susijęs su eilės skale, apskaičiuojamas Spearman koeficientas;
  • susiję su intervalų skale – Pearsono koeficientas.

Tai yra dažniausiai naudojami parametrai, be jų yra ir kitų.

Koeficiento vertė gali būti išreikšta teigiama arba neigiama.

Pirmuoju atveju, didėjant vieno kintamojo reikšmei, stebimas antrojo didėjimas. Jei koeficientas yra neigiamas, modelis yra atvirkštinis.

Kam skirtas koreliacijos koeficientas?

Atsitiktiniai vienas su kitu susiję kintamieji gali turėti visiškai skirtingą šio ryšio pobūdį. Jis nebūtinai bus funkcionalus, kai galima atsekti tiesioginį ryšį tarp dydžių. Dažniausiai abu dydžius veikia daugybė įvairių veiksnių tais atvejais, kai jie yra bendri abiem dydžiams, stebimas susijusių modelių susidarymas.

Tai reiškia, kad statistiškai įrodytas ryšio tarp dydžių egzistavimo faktas nepatvirtina, kad pastebėtų pokyčių priežastis buvo nustatyta. Paprastai tyrėjas daro išvadą, kad yra dvi tarpusavyje susijusios pasekmės.

Koreliacijos koeficiento savybės

Ši statistinė charakteristika turi šias savybes:

  • Koeficiento reikšmė svyruoja nuo -1 iki +1. Kuo arčiau kraštutinių verčių, tuo stipresnis teigiamas arba neigiamas ryšys tarp tiesinių parametrų. Nulinės reikšmės atveju kalbame apie koreliacijos tarp charakteristikų nebuvimą;
  • teigiama koeficiento reikšmė rodo, kad padidėjus vienos charakteristikos reikšmei, stebimas antrosios padidėjimas (teigiama koreliacija);
  • neigiama reikšmė – padidėjus vienos charakteristikos reikšmei, stebimas antrosios mažėjimas (neigiama koreliacija);
  • rodiklio reikšmės artėjimas prie kraštutinių taškų (-1 arba +1) rodo, kad yra labai stiprus tiesinis ryšys;
  • charakteristikos rodikliai gali keistis, o koeficiento reikšmė išlieka nepakitusi;
  • koreliacijos koeficientas yra bematis dydis;
  • koreliacijos buvimas nebūtinai patvirtina priežasties ir pasekmės ryšį.

Koreliacijos koeficiento reikšmės

Koreliacijos stiprumą galima apibūdinti naudojant Cheldock skalę, kurioje tam tikra skaitinė reikšmė atitinka kokybinę charakteristiką.

Esant teigiamai koreliacijai su verte:

  • 0-0,3 – koreliacija labai silpna;
  • 0,3-0,5 – silpnas;
  • 0,5-0,7 – vidutinio stiprumo;
  • 0,7-0,9 – aukštas;
  • 0,9-1 – labai didelis koreliacijos stiprumas.

Skalė taip pat gali būti naudojama neigiamai koreliacijai. Šiuo atveju kokybinės charakteristikos pakeičiamos priešingomis.

Galite naudoti supaprastintą Cheldock skalę, kuri išskiria tik 3 koreliacijos stiprumo gradacijas:

  • labai stiprus - rodikliai ±0,7 - ±1;
  • vidurkis - rodikliai ±0,3 - ±0,699;
  • labai silpnas – rodikliai 0 – ±0,299.

Šis statistinis rodiklis leidžia ne tik patikrinti prielaidą, kad egzistuoja tiesinis ryšys tarp charakteristikų, bet ir nustatyti jo stiprumą.

Koreliacijos koeficiento rūšys

Koreliacijos koeficientai gali būti klasifikuojami pagal ženklą ir reikšmę:

  • teigiamas;
  • nulinis;
  • neigiamas.

Atsižvelgiant į analizuojamas vertes, apskaičiuojamas koeficientas:

  • Pearsonas;
  • Spearman;
  • Kendal;
  • Fechnerio ženklai;
  • konkordancija arba daugkartinė koreliacija.

Pirsono koreliacijos koeficientas naudojamas nustatyti tiesioginius ryšius tarp absoliučių kintamųjų verčių. Šiuo atveju abiejų kintamųjų eilučių skirstiniai turėtų artėti prie normalaus. Palyginami kintamieji turi skirtis tuo pačiu kintamų charakteristikų skaičiumi. Kintamuosius atspindinti skalė turi būti intervalo arba santykio skalė.

  • tiksliai nustatyti koreliacijos stiprumą;
  • kiekybinių charakteristikų palyginimas.

Linijinio Pirsono koreliacijos koeficiento naudojimas turi keletą trūkumų:

  • metodas yra nestabilus esant skaitinių reikšmių nuokrypiams;
  • Naudojant šį metodą koreliacijos stiprumą galima nustatyti tik tiesiniam ryšiui, esant kitokio tipo kintamųjų tarpusavio ryšiams, reikėtų taikyti regresinės analizės metodus.

Rango koreliacija nustatoma Spearman metodu, leidžiančiu statistiškai ištirti ryšį tarp reiškinių. Šio koeficiento dėka apskaičiuojamas dviejų kiekybiškai išreikštų charakteristikų eilučių faktinis lygiagretumo laipsnis, taip pat įvertinamas nustatytos jungties sandarumas.

  • nereikalaujant tiksliai nustatyti koreliacijos jėgos vertės;
  • lyginami rodikliai turi ir kiekybinę, ir atributinę reikšmes;
  • charakteristikų serijų palyginimas su atvirais reikšmių variantais.

Spearmano metodas yra neparametrinės analizės metodas, todėl nereikia tikrinti charakteristikos pasiskirstymo normalumo. Be to, tai leidžia palyginti skirtingomis skalėmis išreikštus rodiklius. Pavyzdžiui, raudonųjų kraujo kūnelių skaičiaus palyginimas tam tikrame kraujo tūryje (nuolatinė skalė) ir ekspertų vertinimas, išreikštas balais (eilės skalė).

Metodo efektyvumą neigiamai veikia didelis palyginamų kiekių verčių skirtumas. Metodas taip pat nėra efektyvus tais atvejais, kai išmatuotai vertei būdingas netolygus reikšmių pasiskirstymas.

Žingsnis po žingsnio koreliacijos koeficiento skaičiavimas programoje Excel

Skaičiuojant koreliacijos koeficientą reikia nuosekliai atlikti keletą matematinių operacijų.

Aukščiau pateikta Pirsono koeficiento apskaičiavimo formulė parodo, kiek daug darbo reikalauja šis procesas, jei jis atliekamas rankiniu būdu.
Pasinaudojus „Excel“ galimybėmis koeficiento radimo procesas gerokai paspartėja.

Pakanka laikytis paprasto veiksmų algoritmo:

  • pagrindinės informacijos įvedimas - x reikšmių stulpelis ir y reikšmių stulpelis;
  • įrankiuose pasirinkite ir atidarykite skirtuką „Formulės“;
  • atsidariusiame skirtuke pasirinkite „Įterpti fx funkciją“;
  • atsidariusiame dialogo lange pasirinkite statistinę funkciją „Corel“, kuri leidžia apskaičiuoti koreliacijos koeficientą tarp 2 duomenų rinkinių;
  • atsidariusiame lange įveskite duomenis: masyvas 1 – stulpelio x reikšmių diapazonas (duomenis reikia pasirinkti), masyvas 2 – stulpelio y reikšmių diapazonas;
  • paspaudžiamas klavišas „ok“, koeficiento skaičiavimo rezultatas pasirodo eilutėje „reikšmė“;
  • išvada dėl koreliacijos tarp 2 duomenų rinkinių ir jos stiprumo.

Koreliacijos koeficientas atspindi dviejų rodiklių ryšio laipsnį. Jis visada turi reikšmę nuo -1 iki 1. Jei koeficientas yra maždaug 0, tai nėra ryšio tarp kintamųjų.

Jei reikšmė artima vienetui (pavyzdžiui, nuo 0,9), tada tarp stebimų objektų yra stiprus tiesioginis ryšys. Jei koeficientas yra artimas kitam kraštutiniam diapazono taškui (-1), tada tarp kintamųjų yra stiprus atvirkštinis ryšys. Kai reikšmė yra kažkur nuo 0 iki 1 arba nuo 0 iki -1, tada kalbame apie silpną ryšį (tiesioginį arba atvirkštinį). Į šį ryšį dažniausiai neatsižvelgiama: manoma, kad jo nėra.

Koreliacijos koeficiento skaičiavimas programoje Excel

Pažvelkime į koreliacijos koeficiento skaičiavimo metodų pavyzdį, tiesioginių ir atvirkštinių kintamųjų ryšių ypatumus.

Rodiklių x ir y reikšmės:

Y yra nepriklausomas kintamasis, x yra priklausomas kintamasis. Būtina rasti ryšio tarp jų stiprumą (stiprus / silpnas) ir kryptį (tiesioginis / atvirkštinis). Koreliacijos koeficiento formulė atrodo taip:


Kad būtų lengviau suprasti, suskirstykime jį į kelis paprastus elementus.

Tarp kintamųjų nustatomas stiprus tiesioginis ryšys.

Integruota CORREL funkcija leidžia išvengti sudėtingų skaičiavimų. Naudodamiesi juo apskaičiuokime poros koreliacijos koeficientą Excel programoje. Iškvieskite funkcijų vedlį. Mes randame tą, kurio mums reikia. Funkcijos argumentai yra y reikšmių masyvas ir x reikšmių masyvas:

Diagramoje parodykime kintamųjų reikšmes:


Matomas stiprus ryšys tarp y ir x, nes linijos eina beveik lygiagrečiai viena kitai. Ryšys yra tiesioginis: y didėja – x ​​didėja, y mažėja – x ​​mažėja.



Poros koreliacijos koeficiento matrica programoje Excel

Koreliacijos matrica yra lentelė, esanti eilučių ir stulpelių sankirtoje, kurioje yra koreliacijos koeficientai tarp atitinkamų verčių. Tikslinga jį sukurti keliems kintamiesiems.

Koreliacijos koeficientų matrica programoje „Excel“ sudaroma naudojant įrankį „Koreliacija“ iš paketo „Duomenų analizė“.


Buvo nustatytas stiprus tiesioginis ryšys tarp y ir x1 reikšmių. Yra stiprus grįžtamasis ryšys tarp x1 ir x2. Praktiškai nėra ryšio su x3 stulpelio reikšmėmis.