05.03.2024

Kā aprēķināt korelācijas koeficientu. Korelācijas koeficienti. Excel izmantošana korelācijas koeficientu aprēķināšanai


Paziņojums! Jūsu konkrētās problēmas risinājums izskatīsies līdzīgi šim piemēram, iekļaujot visas tālāk esošās tabulas un skaidrojošos tekstus, taču ņemot vērā jūsu sākotnējos datus...

Uzdevums:
Ir saistīts 26 vērtību pāru paraugs (x k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Nepieciešams, lai aprēķinātu/uzzīmētu:
- korelācijas koeficients;
- pārbaudīt gadījuma lielumu X un Y atkarības hipotēzi pie nozīmīguma līmeņa α = 0,05;
- lineārās regresijas vienādojuma koeficienti;
- izkliedes diagramma (korelācijas lauks) un regresijas līniju grafiks;

RISINĀJUMS:

1. Aprēķināt korelācijas koeficientu.

Korelācijas koeficients ir divu nejaušu lielumu savstarpējās varbūtības ietekmes rādītājs. Korelācijas koeficients R var ņemt vērtības no -1 pirms tam +1 . Ja absolūtā vērtība ir tuvāka 1 , tad tas liecina par spēcīgu saikni starp daudzumiem, un ja tuvāk 0 - tad tas norāda uz vāju savienojumu vai tā neesamību. Ja absolūtā vērtība R vienāds ar vienu, tad mēs varam runāt par funkcionālu saikni starp lielumiem, tas ir, vienu lielumu var izteikt caur citu, izmantojot matemātisko funkciju.


Korelācijas koeficientu var aprēķināt, izmantojot šādas formulas:
n
Σ
k = 1
(x k-M x) 2, σ y 2 =
M x =
1
n
n
Σ
k = 1
xk, M g =

vai pēc formulas

Rx,y =
M xy - M x M g
S x S y
(1.4), kur:
M x =
1
n
n
Σ
k = 1
xk, M g =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 — M y 2 (1,6)

Praksē korelācijas koeficienta aprēķināšanai biežāk izmanto formulu (1.4.), jo tas prasa mazāk aprēķinu. Tomēr, ja kovariācija tika aprēķināta iepriekš cov(X,Y), tad izdevīgāk ir izmantot formulu (1.1), jo Papildus pašai kovariācijas vērtībai varat izmantot arī starpaprēķinu rezultātus.

1.1 Aprēķināsim korelācijas koeficientu, izmantojot formulu (1.4), lai to izdarītu, mēs aprēķinām x k ​​2, y k 2 un x k y k vērtības un ievadām tās 1. tabulā.

1. tabula


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Aprēķināsim M x, izmantojot formulu (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Aprēķināsim M y līdzīgi.

1.3.1. Saskaitīsim visus elementus secīgi y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Sadaliet iegūto summu ar parauga elementu skaitu

793.00000 / 26 = 30.50000

M g = 30,500 000

1.4. Līdzīgā veidā mēs aprēķinām M xy.

1.4.1. Saskaitīsim secīgi visus 1. tabulas 6. ailes elementus

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Sadaliet iegūto summu ar elementu skaitu

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Aprēķināsim S x 2 vērtību, izmantojot formulu (1.6.).

1.5.1. Saskaitīsim secīgi visus 1. tabulas 4. ailes elementus

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Sadaliet iegūto summu ar elementu skaitu

17256.91000 / 26 = 663.72731

1.5.3. No pēdējā skaitļa atņemiet kvadrātu M x, lai iegūtu S x 2 vērtību

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Aprēķināsim S y 2 vērtību, izmantojot formulu (1.6.).

1.6.1. Saskaitīsim secīgi visus 1. tabulas 5. ailes elementus

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Sadaliet iegūto summu ar elementu skaitu

24191.84000 / 26 = 930.45538

1.6.3. Atņemiet M y kvadrātu no pēdējā skaitļa, lai iegūtu S y 2 vērtību

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Aprēķināsim lielumu S x 2 un S y 2 reizinājumu.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Ņemsim pēdējā skaitļa kvadrātsakni un iegūstam vērtību S x S y.

S x S y = 0,36951

1.9. Aprēķināsim korelācijas koeficienta vērtību, izmantojot formulu (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ATBILDE: R x,y = -0,720279

2. Pārbaudām korelācijas koeficienta nozīmīgumu (pārbaudām atkarības hipotēzi).

Tā kā korelācijas koeficienta aprēķins tiek aprēķināts ierobežotai izlasei un tāpēc var atšķirties no tās kopas vērtības, ir jāpārbauda korelācijas koeficienta nozīmīgums. Pārbaude tiek veikta, izmantojot t-testu:

t =
Rx,y
n-2
1 — R 2 x,y
(2.1)

Izlases vērtība t seko Stjudenta t sadalījumam un, izmantojot t sadalījuma tabulu, ir jāatrod kritērija kritiskā vērtība (t cr.α) noteiktā nozīmīguma līmenī α. Ja pēc formulas (2.1) aprēķinātā t absolūtā vērtībā izrādās mazāka par t cr.α , tad starp nejaušajiem lielumiem X un Y nav atkarības. Pretējā gadījumā eksperimentālie dati nav pretrunā ar hipotēzi par nejaušo mainīgo atkarību.


2.1. Aprēķināsim t-kritērija vērtību, izmantojot formulu (2.1) un iegūsim:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Izmantojot t sadalījuma tabulu, nosakām parametra t cr.α kritisko vērtību

Vēlamā tcr.α vērtība atrodas brīvības pakāpju skaitam atbilstošās rindas un dotajam nozīmīguma līmenim α atbilstošās kolonnas krustpunktā.
Mūsu gadījumā brīvības pakāpju skaits ir n - 2 = 26 - 2 = 24 un α = 0.05 , kas atbilst kritērija kritiskajai vērtībai t cr.α = 2.064 (skat. 2. tabulu)

2. tabula t-sadale

Brīvības pakāpju skaits
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Salīdzināsim t-kritērija absolūto vērtību un t cr.α

T-kritērija absolūtā vērtība nav mazāka par kritisko vērtību t = 5,08680, t cr.α = 2,064, tāpēc eksperimentālie dati, ar varbūtību 0,95(1–α), nav pretrunā ar hipotēzi par gadījuma lielumu X un Y atkarību.

3. Aprēķināt lineārās regresijas vienādojuma koeficientus.

Lineārās regresijas vienādojums ir taisnas līnijas vienādojums, kas tuvina (aptuveni apraksta) sakarību starp nejaušajiem mainīgajiem X un Y. Ja pieņemam, ka vērtība X ir brīva un Y ir atkarīga no X, tad regresijas vienādojums tiks uzrakstīts kā seko


Y = a + b X (3.1.), kur:

b =Rx,y
σy
σ x
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Koeficients, kas aprēķināts, izmantojot formulu (3.2.) b sauc par lineārās regresijas koeficientu. Dažos avotos a sauc par konstantu regresijas koeficientu un b atbilstoši mainīgajiem lielumiem.

Kļūdas, prognozējot Y noteiktai vērtībai X, aprēķina, izmantojot šādas formulas:

Tiek saukts arī lielums σ y/x (formula 3.4). atlikušā standarta novirze, tas raksturo vērtības Y novirzi no regresijas taisnes, kas aprakstīta ar vienādojumu (3.1) fiksētai (dotai) X vērtībai.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Ņemsim kvadrātsakni no pēdējā skaitļa un iegūstam:
S y / S x = 0,55582

3.3. Aprēķināsim koeficientu b saskaņā ar formulu (3.2.)

b = -0.72028 0.55582 = -0.40035

3.4 Aprēķināsim koeficientu a saskaņā ar formulu (3.3.)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5. Novērtēsim regresijas vienādojuma kļūdas.

3.5.1 Ņemot kvadrātsakni no S y 2, mēs iegūstam:

= 0.31437
3.5.4 Aprēķināsim relatīvo kļūdu, izmantojot formulu (3.5)

δ y/x = (0,31437/30,50000)100% = 1,03073%

4. Izveidojam izkliedes diagrammu (korelācijas lauku) un regresijas līniju grafiku.

Izkliedes diagramma ir atbilstošo pāru (x k, y k) grafisks attēlojums kā plaknes punkti taisnstūra koordinātēs ar X un Y asīm. Korelācijas lauks ir viens no saistītā (pāra) parauga grafiskiem attēlojumiem. Tajā pašā koordinātu sistēmā ir attēlots arī regresijas līniju grafiks. Mērogi un sākuma punkti uz asīm jāizvēlas rūpīgi, lai diagramma būtu pēc iespējas skaidrāka.

4.1. Atrodiet parauga minimālo un maksimālo elementu X ir attiecīgi 18. un 15. elements, x min = 22.10000 un x max = 26.60000.

4.2. Parauga Y minimālais un maksimālais elements ir attiecīgi 2. un 18. elements, y min = 29.40000 un y max = 31.60000.

4.3. Uz x ass izvēlieties sākuma punktu nedaudz pa kreisi no punkta x 18 = 22,10000 un tādu mērogu, lai punkts x 15 = 26,60000 ietilptu uz ass un pārējie punkti būtu skaidri redzami.

4.4. Uz ordinātu ass izvēlieties sākuma punktu nedaudz pa kreisi no punkta y 2 = 29,40000 un tādu mērogu, lai punkts y 18 = 31,60000 ietilptu uz ass un pārējie punkti būtu skaidri atšķirami.

4.5. Mēs novietojam x k ​​vērtības uz abscisu ass un y k vērtības uz ordinātu ass.

4.6. Punktus (x 1, y 1), (x 2, y 2),…, (x 26, y 26) uzzīmējam koordinātu plaknē. Mēs iegūstam izkliedes diagrammu (korelācijas lauku), kas parādīta attēlā zemāk.

4.7. Nozīmēsim regresijas līniju.

Lai to izdarītu, mēs atradīsim divus dažādus punktus ar koordinātām (x r1, y r1) un (x r2, y r2), kas atbilst (3.6) vienādojumam, uzzīmēsim tos koordinātu plaknē un novelsim caur tiem taisnu līniju. Kā pirmā punkta abscisu mēs ņemam vērtību x min = 22,10000. Aizvietojot vērtību x min vienādojumā (3.6), iegūstam pirmā punkta ordinātas. Tādējādi mums ir punkts ar koordinātām (22.10000, 31.96127). Līdzīgā veidā iegūstam otrā punkta koordinātas, par abscisu liekot vērtību x max = 26,60000. Otrais punkts būs: (26.60000, 30.15970).

Regresijas līnija ir parādīta attēlā zemāk sarkanā krāsā

Lūdzu, ņemiet vērā, ka regresijas līnija vienmēr iet caur X un Y vidējo vērtību punktu, t.i. ar koordinātām (M x , M y).

Korelācijas analīzes mērķis ir identificēt saiknes stipruma novērtējumu starp nejaušiem mainīgajiem (iezīmēm), kas raksturo kādu reālu procesu.
Korelācijas analīzes problēmas:
a) Divu vai vairāku parādību saskaņotības pakāpes (tuvuma, stipruma, smaguma, intensitātes) mērīšana.
b) To faktoru atlase, kuriem ir visnozīmīgākā ietekme uz iegūto atribūtu, pamatojoties uz parādību savienojamības pakāpes mērīšanu. Faktori, kas ir nozīmīgi šajā aspektā, tiek izmantoti turpmāk regresijas analīzē.
c) Nezināmu cēloņsakarību noteikšana.

Attiecību izpausmes formas ir ļoti dažādas. Visizplatītākie veidi ir funkcionālie (pilnīgie) un korelācijas (nepilnīgs) savienojums.
Korelācija izpaužas vidēji masu novērojumiem, kad atkarīgā mainīgā dotās vērtības atbilst noteiktai neatkarīgā mainīgā varbūtības vērtību sērijai. Attiecības sauc par korelāciju, ja katra faktora raksturlieluma vērtība atbilst precīzi definētai rezultējošā raksturlieluma negadījuma vērtībai.
Korelācijas tabulas vizuāls attēlojums ir korelācijas lauks. Tas ir grafiks, kurā X vērtības ir attēlotas uz abscisu ass, Y vērtības ir attēlotas uz ordinātu ass, bet X un Y kombinācijas ir parādītas ar punktiem. Pēc punktu atrašanās vietas var spriest par klātbūtni no savienojuma.
Savienojuma ciešuma rādītājiļauj raksturot iegūtās pazīmes variācijas atkarību no faktorpazīmes variācijas.
Uzlabotāks drūzmēšanās pakāpes rādītājs korelācijas savienojums ir lineārās korelācijas koeficients. Aprēķinot šo rādītāju, tiek ņemtas vērā ne tikai atsevišķu raksturlielumu vērtību novirzes no vidējā, bet arī pats šo noviržu lielums.

Šīs tēmas galvenie jautājumi ir regresijas attiecības vienādojumi starp efektīvo raksturlielumu un skaidrojošo mainīgo, mazāko kvadrātu metode regresijas modeļa parametru novērtēšanai, iegūtā regresijas vienādojuma kvalitātes analīze, ticamības intervālu konstruēšana efektīvā raksturlieluma vērtības, izmantojot regresijas vienādojumu.

2. piemērs


Normālo vienādojumu sistēma.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Mūsu datiem vienādojumu sistēmai ir forma
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
No pirmā vienādojuma mēs izsakām A un aizstāt ar otro vienādojumu:
Mēs iegūstam b = -3,46, a = 1379,33
Regresijas vienādojums:
y = -3,46 x + 1379,33

2. Regresijas vienādojuma parametru aprēķins.
Izlases līdzekļi.



Izlases paraugi:


Standarta novirze


1.1. Korelācijas koeficients
Kovariance.

Mēs aprēķinām savienojuma tuvuma indikatoru. Šis rādītājs ir izlases lineārās korelācijas koeficients, ko aprēķina pēc formulas:

Lineārās korelācijas koeficients ņem vērtības no –1 līdz +1.
Savienojumi starp raksturlielumiem var būt vāji un spēcīgi (cieši). Viņu kritēriji tiek novērtēti Čadoka skalā:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Mūsu piemērā saistība starp pazīmi Y un faktoru X ir augsta un apgriezta.
Turklāt lineāro pāru korelācijas koeficientu var noteikt, izmantojot regresijas koeficientu b:

1.2. Regresijas vienādojums(regresijas vienādojuma novērtējums).

Lineārās regresijas vienādojums ir y = -3,46 x + 1379,33

Koeficients b = -3,46 parāda efektīvā rādītāja vidējo izmaiņu (mērvienībās y) ar faktora x vērtības pieaugumu vai samazināšanos uz vienu tā mērvienību. Šajā piemērā, palielinoties par 1 vienību, y vidēji samazinās par -3,46.
Koeficients a = 1379,33 formāli parāda prognozēto y līmeni, bet tikai tad, ja x = 0 ir tuvu izlases vērtībām.
Bet, ja x=0 ir tālu no x izlases vērtībām, tad burtiskā interpretācija var novest pie nepareiziem rezultātiem, un pat ja regresijas līnija diezgan precīzi apraksta novērotās izlases vērtības, nav garantijas, ka tas arī ekstrapolējot pa kreisi vai pa labi.
Aizvietojot atbilstošās x vērtības regresijas vienādojumā, mēs varam noteikt veiktspējas rādītāja y(x) izlīdzinātās (paredzamās) vērtības katram novērojumam.
Sakarība starp y un x nosaka regresijas koeficienta b zīmi (ja > 0 - tieša sakarība, pretējā gadījumā - apgriezta). Mūsu piemērā savienojums ir apgriezts.
1.3. Elastības koeficients.
Nav vēlams izmantot regresijas koeficientus (piemērā b), lai tieši novērtētu faktoru ietekmi uz rezultējošo raksturlielumu, ja ir atšķirības rezultējošā rādītāja y un faktora raksturlieluma x mērvienībās.
Šiem nolūkiem tiek aprēķināti elastības koeficienti un beta koeficienti.
Vidējais elastības koeficients E parāda, par cik procentiem vidēji mainīsies rezultāts kopumā plkst no tās vidējās vērtības, kad faktors mainās x par 1% no tās vidējās vērtības.
Elastības koeficientu nosaka pēc formulas:


Elastības koeficients ir mazāks par 1. Tāpēc, ja X mainīsies par 1%, Y mainīsies par mazāk nekā 1%. Citiem vārdiem sakot, X ietekme uz Y nav nozīmīga.
Beta koeficients parāda, par kādu tā standartnovirzes vērtības daļu mainīsies iegūtā raksturlieluma vidējā vērtība, kad faktora raksturlielums mainīsies par tā standartnovirzes vērtību ar atlikušo neatkarīgo mainīgo vērtību, kas fiksēta nemainīgā līmenī:

Tie. x palielinājums par standartnovirzi S x novedīs pie Y vidējās vērtības samazināšanās par 0,74 standartnovirzi S y .
1.4. Tuvināšanas kļūda.
Novērtēsim regresijas vienādojuma kvalitāti, izmantojot absolūtās aproksimācijas kļūdu. Vidējā aproksimācijas kļūda - aprēķināto vērtību vidējā novirze no faktiskajām:


Tā kā kļūda ir mazāka par 15%, šo vienādojumu var izmantot kā regresiju.
Dispersijas analīze.
Dispersijas analīzes mērķis ir analizēt atkarīgā mainīgā dispersiju:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Kur
∑(y i - y cp) 2 - noviržu kvadrātā kopējā summa;
∑(y(x) - y cp) 2 - regresijas izraisīto noviržu summa kvadrātā (“izskaidrots” vai “faktoriāls”);
∑(y - y(x)) 2 - noviržu kvadrātā atlikušā summa.
Teorētiskās korelācijas attiecības lineāram savienojumam ir vienāds ar korelācijas koeficientu r xy .
Jebkura veida atkarības gadījumā savienojuma hermētiskumu nosaka, izmantojot daudzkārtējās korelācijas koeficients:

Šis koeficients ir universāls, jo tas atspoguļo attiecības ciešumu un modeļa precizitāti, un to var izmantot arī jebkura veida savienojumam starp mainīgajiem. Konstruējot viena faktora korelācijas modeli, daudzkārtējās korelācijas koeficients ir vienāds ar pāra korelācijas koeficientu r xy.
1.6. Determinācijas koeficients.
(Daudzkārtējās) korelācijas koeficienta kvadrātu sauc par determinācijas koeficientu, kas parāda rezultējošā atribūta variācijas proporciju, kas izskaidrojama ar faktora atribūta variāciju.
Visbiežāk, interpretējot determinācijas koeficientu, tas tiek izteikts procentos.
R2 = -0,742 = 0,5413
tie. 54,13% gadījumu x izmaiņas izraisa y izmaiņas. Citiem vārdiem sakot, regresijas vienādojuma atlases precizitāte ir vidēja. Atlikušie 45,87% Y izmaiņu ir izskaidrojami ar modelī neņemtajiem faktoriem.

Bibliogrāfija

  1. Ekonometrija: mācību grāmata / Red. I.I. Elisejeva. – M.: Finanses un statistika, 2001, lpp. 34..89.
  2. Magnuss Y.R., Katiševs P.K., Peresetskis A.A. Ekonometrija. Iesācēju kurss. Apmācība. – 2. izd., red. – M.: Delo, 1998, lpp. 17..42.
  3. Seminārs par ekonometriju: Proc. pabalsts / I.I. Elisejeva, S.V. Kuriševa, N.M. Gordeenko un citi; Ed. I.I. Elisejeva. – M.: Finanses un statistika, 2001, lpp. 5..48.

06.06.2018 16 235 0 Igors

Psiholoģija un sabiedrība

Viss pasaulē ir savstarpēji saistīts. Katrs cilvēks intuīcijas līmenī cenšas atrast attiecības starp parādībām, lai spētu tās ietekmēt un kontrolēt. Jēdzienu, kas atspoguļo šīs attiecības, sauc par korelāciju. Ko tas nozīmē vienkāršos vārdos?

Saturs:

Korelācijas jēdziens

Korelācija (no latīņu “correlatio” - attiecība, attiecības)– matemātisks termins, kas nozīmē statistiskās varbūtības atkarības mēru starp nejaušiem lielumiem (mainīgajiem).



Piemērs:Ņemsim divu veidu attiecības:

  1. Pirmkārt- pildspalva cilvēka rokā. Kurā virzienā kustas roka, tajā virzienā iet pildspalva. Ja roka ir miera stāvoklī, pildspalva neraksta. Ja cilvēks to nospiež nedaudz stiprāk, atzīme uz papīra būs bagātāka. Šāda veida attiecības atspoguļo stingru atkarību un nav korelatīvas. Šīs attiecības ir funkcionālas.
  2. Otrais veids– attiecības starp cilvēka izglītības līmeni un literatūras lasīšanu. Iepriekš nav zināms, kuri cilvēki lasa vairāk: ar vai bez augstākās izglītības. Šī saikne ir nejauša vai stohastiska; to pēta statistikas zinātne, kas nodarbojas tikai ar masu parādībām. Ja statistiskais aprēķins ļauj pierādīt korelāciju starp izglītības līmeni un literatūras lasīšanu, tad tas ļaus veikt jebkādas prognozes un paredzēt notikumu varbūtības rašanos. Šajā piemērā ar lielu varbūtības pakāpi var apgalvot, ka cilvēki ar augstāko izglītību, tie, kas ir vairāk izglītoti, lasa vairāk grāmatu. Bet, tā kā savienojums starp šiem parametriem nav funkcionāls, mēs varam kļūdīties. Jūs vienmēr varat aprēķināt šādas kļūdas iespējamību, kas būs nepārprotami maza un tiek saukta par statistiskās nozīmīguma līmeni (p).

Dabas parādību saistību piemēri ir: barības ķēde dabā, cilvēka ķermenis, kas sastāv no orgānu sistēmām, kas ir savstarpēji saistītas un darbojas kā vienots veselums.

Ikdienā sastopamies ar korelācijām ikdienā: starp laikapstākļiem un labu garastāvokli, pareizu mērķu formulēšanu un to sasniegšanu, pozitīvu attieksmi un veiksmi, laimes sajūtu un finansiālo labklājību. Bet mēs meklējam kopsakarības, paļaujoties nevis uz matemātiskiem aprēķiniem, bet gan uz mītiem, intuīciju, māņticību un dīkstāvēm. Šīs parādības ir ļoti grūti pārtulkot matemātiskā valodā, izteikt skaitļos un izmērīt. Cits jautājums ir, ja mēs analizējam parādības, kuras var aprēķināt un attēlot skaitļu veidā. Šajā gadījumā korelāciju varam definēt, izmantojot korelācijas koeficientu (r), kas atspoguļo nejaušo mainīgo korelācijas stiprumu, pakāpi, tuvumu un virzienu.

Spēcīga korelācija starp nejaušajiem mainīgajiem- pierādījumi par statistiskas saiknes esamību tieši starp šīm parādībām, taču šo saistību nevar pārnest uz tām pašām parādībām, bet gan uz citu situāciju. Bieži vien pētnieki, savos aprēķinos ieguvuši būtisku korelāciju starp diviem mainīgajiem, pamatojoties uz korelācijas analīzes vienkāršību, izdara kļūdainus intuitīvus pieņēmumus par cēloņsakarību esamību starp pazīmēm, aizmirstot, ka korelācijas koeficientam ir varbūtības raksturs. .

Piemērs: ledus apstākļos cietušo cilvēku skaits un ceļu satiksmes negadījumu skaits starp mehāniskajiem transportlīdzekļiem. Šie lielumi korelēs viens ar otru, lai gan tie absolūti nav savstarpēji saistīti, bet ir saistīti tikai ar šo nejaušo notikumu kopējo cēloni - melno ledu. Ja analīze neatklāj korelāciju starp parādībām, tas vēl neliecina par to, ka starp tām nav atkarības, kas var būt sarežģīta nelineāra un neatklāta korelācijas aprēķinos.




Pirmie korelācijas jēdzienu zinātniskā lietošanā ieviesa franči paleontologs Džordžs Kuvjē. 18. gadsimtā viņš izsecināja dzīvo organismu daļu un orgānu korelācijas likumu, pateicoties kuram no atrastajām ķermeņa daļām (atliekām) kļuva iespējams atjaunot visas fosilās radības, dzīvnieka, izskatu. Statistikā terminu korelācija pirmo reizi lietoja 1886. gadā angļu zinātnieks Frensiss Galtons. Bet viņš nevarēja iegūt precīzu formulu korelācijas koeficienta aprēķināšanai, bet viņa students to izdarīja - slavenais matemātiķis un biologs Karls Pīrsons.

Korelācijas veidi

Pēc svarīguma– ļoti nozīmīgs, nozīmīgs un nenozīmīgs.

Veidi

ar ko r ir vienāds

Ļoti nozīmīgs

r atbilst statistiskā nozīmīguma līmenim p<=0,01

Nozīmīgi

r atbilst p<=0,05

Nenozīmīgs

r nesasniedz p>0,1

Negatīvs(viena mainīgā vērtības samazināšanās noved pie cita līmeņa paaugstināšanās: jo vairāk fobiju cilvēkam ir, jo mazāka iespēja, ka viņš ieņems vadošu amatu) un pozitīvs (ja viena mainīgā lieluma palielināšanās izraisa pieaugumu cita līmenī: jo nervozāks tu esi, jo lielāka iespēja saslimt). Ja starp mainīgajiem nav saiknes, tad šādu korelāciju sauc par nulli.

Lineārs(vienai vērtībai palielinoties vai samazinoties, otrajai arī palielinoties vai samazinoties) un nelineārajai (kad, mainoties vienai vērtībai, otrās izmaiņu raksturu nevar aprakstīt, izmantojot lineāro sakarību, tad tiek piemēroti citi matemātiskie likumi - polinoms, hiperbolisks attiecības).

Pēc spēka.

Likmes




Atkarībā no tā, kurai skalai pieder pētāmie mainīgie, tiek aprēķināti dažāda veida korelācijas koeficienti:

  1. Pīrsona korelācijas koeficients, pāru lineārās korelācijas koeficients vai produkta momenta korelācija tiek aprēķināta mainīgajiem ar intervāla un skalas mērīšanas skalām.
  2. Spīrmena vai Kendala ranga korelācijas koeficients – ja vismaz vienam no daudzumiem ir kārtas skala vai tas nav normāli sadalīts.
  3. Punktu bisēriskās korelācijas koeficients (Fechner sign korelācijas koeficients) – ja viens no diviem lielumiem ir dihotoms.
  4. Četru lauku korelācijas koeficients (vairāku rangu korelācijas (saskaņas) koeficients – ja divi mainīgie ir dihotomi.

Pīrsona koeficients attiecas uz parametru korelācijas rādītājiem, visi pārējie ir neparametriskie.

Korelācijas koeficienta vērtība svārstās no -1 līdz +1. Ar pilnīgu pozitīvu korelāciju r = +1, ar pilnīgu negatīvu korelāciju r = -1.

Formula un aprēķins





Piemēri

Ir nepieciešams noteikt saistību starp diviem mainīgajiem lielumiem: intelektuālās attīstības līmeni (saskaņā ar testēšanu) un kavējumu skaitu mēnesī (saskaņā ar ierakstiem izglītības žurnālā) skolēnu vidū.

Sākotnējie dati ir parādīti tabulā:

IQ dati (x)

Dati par kavējumu skaitu (y)

Summa

1122

Vidēji

112,2


Lai iegūtu pareizu iegūtā rādītāja interpretāciju, ir jāanalizē korelācijas koeficienta zīme (+ vai -) un tā absolūtā vērtība (modulo).

Saskaņā ar korelācijas koeficienta klasifikācijas tabulu pēc stiprības secinām, ka rxy = -0,827 ir spēcīga negatīva korelācija. Tādējādi kavējošo skolēnu skaitam ir ļoti liela atkarība no viņu intelektuālās attīstības līmeņa. Var teikt, ka skolēni ar augstu IQ līmeni uz nodarbībām kavējas retāk nekā skolēni ar zemu IQ līmeni.



Korelācijas koeficientu var izmantot gan zinātnieki, lai apstiprinātu vai atspēkotu pieņēmumu par divu lielumu vai parādību atkarību un izmērītu tā stiprumu un nozīmīgumu, gan studenti, lai veiktu empīriskus un statistiskus pētījumus dažādos priekšmetos. Jāatceras, ka šis rādītājs nav ideāls instruments, tas tiek aprēķināts tikai lineāras attiecības stipruma mērīšanai un vienmēr būs varbūtības vērtība, kurai ir noteikta kļūda.

Korelācijas analīze tiek izmantota šādās jomās:

  • ekonomikas zinātne;
  • astrofizika;
  • sociālās zinātnes (socioloģija, psiholoģija, pedagoģija);
  • agroķīmija;
  • metalurģija;
  • rūpniecība (kvalitātes kontrolei);
  • hidrobioloģija;
  • biometriskie dati utt.

Korelācijas analīzes metodes popularitātes iemesli:

  1. Korelācijas koeficientu aprēķināšanas relatīvā vienkāršība neprasa īpašu matemātisko izglītību.
  2. Ļauj aprēķināt sakarības starp masveida gadījuma mainīgajiem, kas ir statistikas zinātnes analīzes priekšmets. Šajā sakarā šī metode ir kļuvusi plaši izplatīta statistikas pētījumu jomā.

Es ceru, ka tagad jūs spēsiet atšķirt funkcionālās attiecības no korelācijas attiecībām un zināsiet, ka, dzirdot televīzijā vai lasot presē par korelāciju, tas nozīmē pozitīvu un diezgan nozīmīgu divu parādību savstarpējo atkarību.

Dažādas pazīmes var būt saistītas viena ar otru.

Starp tiem ir 2 veidu savienojumi:

  • funkcionāls;
  • korelācija.

Korelācija tulkots krieviski ir nekas vairāk kā savienojums.
Korelācijas savienojuma gadījumā var izsekot vairāku viena raksturlieluma vērtību atbilstībai vairākām citas pazīmes vērtībām. Kā piemērus mēs varam uzskatīt konstatētās korelācijas starp:

  • putnu, piemēram, gārņu, dzērvju un stārķu, ķepu, kakla un knābju garums;
  • ķermeņa temperatūras un sirdsdarbības ātruma rādītāji.

Lielākajai daļai biomedicīnas procesu šāda veida savienojumu klātbūtne ir statistiski pierādīta.

Statistiskās metodes ļauj konstatēt raksturlielumu savstarpējās atkarības esamību. Šim nolūkam izmantojot īpašus aprēķinus, tiek izveidoti korelācijas koeficienti (savienojamības mēri).

Tādus aprēķinus sauc korelācijas analīze. To veic, lai apstiprinātu 2 mainīgo (gadījuma mainīgo) atkarību viens no otra, ko izsaka ar korelācijas koeficientu.

Korelācijas metodes izmantošana ļauj atrisināt vairākas problēmas:

  • identificēt sakarības esamību starp analizētajiem parametriem;
  • zināšanas par korelācijas esamību ļauj atrisināt prognozēšanas problēmas. Tādējādi pastāv reāla iespēja paredzēt parametra uzvedību, pamatojoties uz cita korelējošā parametra uzvedības analīzi;
  • klasifikācijas veikšana, pamatojoties uz viena no otras neatkarīgu pazīmju atlasi.

Mainīgajiem:

  • saistībā ar kārtas skalu aprēķina Spīrmena koeficientu;
  • saistībā ar intervālu skalu – Pīrsona koeficients.

Šie ir visbiežāk izmantotie parametri, bez tiem ir arī citi.

Koeficienta vērtību var izteikt gan pozitīvi, gan negatīvi.

Pirmajā gadījumā, palielinoties viena mainīgā vērtībai, tiek novērots otrā lieluma pieaugums. Ja koeficients ir negatīvs, modelis tiek mainīts.

Kam paredzēts korelācijas koeficients?

Nejaušiem mainīgajiem, kas saistīti viens ar otru, var būt pilnīgi atšķirīgs šī savienojuma raksturs. Tas ne vienmēr būs funkcionāls, ja var izsekot tiešai saistībai starp daudzumiem. Visbiežāk abus lielumus ietekmē vesela dažādu faktoru kopums, gadījumos, kad tie ir kopīgi abiem lielumiem, tiek novērota saistītu modeļu veidošanās.

Tas nozīmē, ka statistiski pierādītais lielumu attiecības pastāvēšanas fakts neapstiprina, ka novēroto izmaiņu cēlonis ir konstatēts. Kā likums, pētnieks secina, ka ir divas savstarpēji saistītas sekas.

Korelācijas koeficienta īpašības

Šim statistiskajam raksturlielumam ir šādas īpašības:

  • koeficienta vērtība svārstās no -1 līdz +1. Jo tuvāk galējām vērtībām, jo ​​spēcīgāka ir pozitīvā vai negatīvā attiecība starp lineārajiem parametriem. Nulles vērtības gadījumā mēs runājam par korelācijas neesamību starp raksturlielumiem;
  • pozitīva koeficienta vērtība norāda, ka, pieaugot viena raksturlieluma vērtībai, tiek novērots otrās pieaugums (pozitīva korelācija);
  • negatīva vērtība – viena raksturlieluma vērtības pieauguma gadījumā tiek novērota otrā samazināšanās (negatīva korelācija);
  • indikatora vērtības tuvošanās galējiem punktiem (-1 vai +1) norāda uz ļoti spēcīgas lineāras attiecības esamību;
  • raksturlieluma rādītāji var mainīties, kamēr koeficienta vērtība paliek nemainīga;
  • korelācijas koeficients ir bezdimensijas lielums;
  • korelācijas klātbūtne ne vienmēr apstiprina cēloņsakarību.

Korelācijas koeficientu vērtības

Korelācijas stiprumu var raksturot, izmantojot Čeldoka skalu, kurā noteikta skaitliskā vērtība atbilst kvalitatīvam raksturlielumam.

Pozitīvas korelācijas gadījumā ar vērtību:

  • 0-0,3 – korelācija ir ļoti vāja;
  • 0,3-0,5 – vājš;
  • 0,5-0,7 – vidēja stipruma;
  • 0,7-0,9 – augsts;
  • 0,9-1 – ļoti augsts korelācijas stiprums.

Skalu var izmantot arī negatīvai korelācijai. Šajā gadījumā kvalitatīvās īpašības tiek aizstātas ar pretējām.

Varat izmantot vienkāršoto Čeldoka skalu, kas izšķir tikai 3 korelācijas stipruma gradācijas:

  • ļoti spēcīgi - rādītāji ±0,7 - ±1;
  • vidējais - rādītāji ±0,3 - ±0,699;
  • ļoti vāji - rādītāji 0 - ±0,299.

Šis statistiskais rādītājs ļauj ne tikai pārbaudīt pieņēmumu par lineāras sakarības esamību starp raksturlielumiem, bet arī noteikt tā stiprumu.

Korelācijas koeficientu veidi

Korelācijas koeficientus var klasificēt pēc zīmes un vērtības:

  • pozitīvs;
  • nulles;
  • negatīvs.

Atkarībā no analizētajām vērtībām aprēķina koeficientu:

  • Pīrsons;
  • Spīrmens;
  • Kendal;
  • Fehnera zīmes;
  • saskaņa vai vairāku rangu korelācija.

Pīrsona korelācijas koeficients tiek izmantots, lai noteiktu tiešas attiecības starp mainīgo lielumu absolūtajām vērtībām. Šajā gadījumā abu mainīgo lielumu sēriju sadalījumiem vajadzētu tuvoties normālam. Salīdzinātajiem mainīgajiem ir jāatšķiras ar tādu pašu mainīgo raksturlielumu skaitu. Mainīgos attēlojošajai skalai ir jābūt intervāla vai attiecību skalai.

  • precīzi noteikt korelācijas stiprumu;
  • kvantitatīvo raksturlielumu salīdzinājums.

Lineārā Pīrsona korelācijas koeficienta izmantošanai ir daži trūkumi:

  • metode ir nestabila skaitlisko vērtību novirzes gadījumā;
  • Izmantojot šo metodi, korelācijas stiprumu iespējams noteikt tikai lineārai sakarībai, cita veida mainīgo savstarpējām attiecībām jāizmanto regresijas analīzes metodes.

Ranga korelāciju nosaka ar Spīrmena metodi, kas ļauj statistiski pētīt parādību savstarpējo saistību. Pateicoties šim koeficientam, tiek aprēķināta divu kvantitatīvi izteiktu raksturlielumu virkņu faktiskā paralēlisma pakāpe, kā arī tiek novērtēts identificētā savienojuma blīvums.

  • nav nepieciešama precīza korelācijas spēka vērtības noteikšana;
  • salīdzinātajiem rādītājiem ir gan kvantitatīvā, gan atributīva nozīme;
  • raksturlielumu sēriju salīdzinājums ar atvērtajiem vērtību variantiem.

Spīrmena metode ir neparametriskas analīzes metode, tāpēc nav nepieciešams pārbaudīt raksturlieluma sadalījuma normalitāti. Turklāt tas ļauj salīdzināt dažādos mērogos izteiktus rādītājus. Piemēram, sarkano asins šūnu skaita salīdzinājums noteiktā asins tilpumā (nepārtraukta skala) un ekspertu vērtējums, kas izteikts punktos (kārtas skala).

Metodes efektivitāti negatīvi ietekmē liela atšķirība starp salīdzināmo daudzumu vērtībām. Metode nav efektīva arī gadījumos, kad izmērīto vērtību raksturo nevienmērīgs vērtību sadalījums.

Soli pa solim korelācijas koeficienta aprēķināšana programmā Excel

Korelācijas koeficienta aprēķināšana ietver virkni matemātisku darbību secīgu izpildi.

Iepriekš minētā Pīrsona koeficienta aprēķināšanas formula parāda, cik darbietilpīgs šis process ir, ja to veic manuāli.
Programmas Excel iespēju izmantošana ievērojami paātrina koeficienta atrašanas procesu.

Pietiek ievērot vienkāršu darbību algoritmu:

  • pamatinformācijas ievadīšana - x vērtību kolonna un y vērtību kolonna;
  • rīkos atlasiet un atveriet cilni “Formulas”;
  • atvērtajā cilnē atlasiet “Ievietot fx funkciju”;
  • atvērtajā dialoglodziņā atlasiet statistisko funkciju “Corel”, kas ļauj aprēķināt korelācijas koeficientu starp 2 datu kopām;
  • Atvērtajā logā ievadiet datus: masīvs 1 – kolonnas x vērtību diapazons (jāatlasa dati), masīvs 2 – kolonnas y vērtību diapazons;
  • tiek nospiests taustiņš “ok”, koeficienta aprēķina rezultāts parādās rindā “vērtība”;
  • secinājums par korelācijas esamību starp 2 datu kopām un tās stiprumu.

Korelācijas koeficients atspoguļo attiecību pakāpi starp diviem rādītājiem. Tas vienmēr ņem vērtību no -1 līdz 1. Ja koeficients atrodas ap 0, tad starp mainīgajiem nav nekādas saistības.

Ja vērtība ir tuvu vienam (piemēram, no 0,9), tad starp novērotajiem objektiem pastāv spēcīga tieša saistība. Ja koeficients ir tuvu otram diapazona galējam punktam (-1), tad starp mainīgajiem ir spēcīga apgriezta sakarība. Ja vērtība ir no 0 līdz 1 vai no 0 līdz -1, mēs runājam par vāju savienojumu (tiešo vai apgriezto). Šīs attiecības parasti netiek ņemtas vērā: tiek uzskatīts, ka tās neeksistē.

Korelācijas koeficienta aprēķināšana programmā Excel

Apskatīsim piemēru korelācijas koeficienta aprēķināšanas metodēm, mainīgo tiešo un apgriezto attiecību pazīmes.

Rādītāju x un y vērtības:

Y ir neatkarīgs mainīgais, x ir atkarīgs mainīgais. Nepieciešams atrast to savienojuma stiprumu (stipru/vāju) un virzienu (uz priekšu/apgrieztu). Korelācijas koeficienta formula izskatās šādi:


Lai to būtu vieglāk saprast, sadalīsim to vairākos vienkāršos elementos.

Starp mainīgajiem tiek noteikta spēcīga tieša saikne.

Iebūvētā CORREL funkcija ļauj izvairīties no sarežģītiem aprēķiniem. Izmantojot to, aprēķināsim pāru korelācijas koeficientu programmā Excel. Izsauciet funkciju vedni. Mēs atrodam īsto. Funkcijas argumenti ir y vērtību masīvs un x vērtību masīvs:

Parādīsim mainīgo vērtības grafikā:


Ir redzama spēcīga saikne starp y un x, jo līnijas iet gandrīz paralēli viena otrai. Sakarība ir tieša: y palielinās - x palielinās, y samazinās - x samazinās.



Pāru korelācijas koeficientu matrica programmā Excel

Korelācijas matrica ir tabula rindu un kolonnu krustpunktā, kurā atrodas korelācijas koeficienti starp attiecīgajām vērtībām. Ir lietderīgi to izveidot vairākiem mainīgajiem.

Korelācijas koeficientu matrica programmā Excel tiek veidota, izmantojot pakotnes “Datu analīze” rīku “Korelācija”.


Tika konstatēta spēcīga tieša saikne starp y un x1 vērtībām. Starp x1 un x2 ir spēcīga atgriezeniskā saite. Praktiski nav nekādas saistības ar vērtībām kolonnā x3.