05.03.2024

Ako vypočítať korelačný koeficient. Korelačné koeficienty. Použitie Excelu na výpočet korelačných koeficientov


Všimnite si! Riešenie vášho konkrétneho problému bude vyzerať podobne ako v tomto príklade, vrátane všetkých nižšie uvedených tabuliek a vysvetľujúcich textov, ale s prihliadnutím na vaše počiatočné údaje...

Úloha:
Existuje súvisiaca vzorka 26 párov hodnôt (x k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Potrebné na výpočet/zakreslenie:
- korelačný koeficient;
- testovať hypotézu závislosti náhodných premenných X a Y, na hladine významnosti α = 0,05;
- koeficienty lineárnej regresnej rovnice;
- rozptylový diagram (korelačné pole) a regresný čiarový graf;

RIEŠENIE:

1. Vypočítajte korelačný koeficient.

Korelačný koeficient je ukazovateľom vzájomného pravdepodobnostného vplyvu dvoch náhodných veličín. Korelačný koeficient R môže preberať hodnoty z -1 predtým +1 . Ak je absolútna hodnota bližšie k 1 , potom je to dôkaz silného spojenia medzi veličinami, a ak sú bližšie k 0 - potom to naznačuje slabé spojenie alebo jeho absenciu. Ak absolútna hodnota R sa rovná jednej, potom môžeme hovoriť o funkčnom spojení medzi veličinami, to znamená, že jedna veličina môže byť vyjadrená prostredníctvom inej pomocou matematickej funkcie.


Korelačný koeficient možno vypočítať pomocou nasledujúcich vzorcov:
n
Σ
k = 1
(x k - M x) 2, σ y 2 =
Mx =
1
n
n
Σ
k = 1
xk, M r =

alebo podľa vzorca

Rx, y =
M xy - M x M y
S x S y
(1.4), kde:
Mx =
1
n
n
Σ
k = 1
xk, M r =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

V praxi sa na výpočet korelačného koeficientu častejšie používa vzorec (1.4), pretože vyžaduje menej výpočtov. Ak však bola predtým vypočítaná kovariancia cov(X,Y), potom je výhodnejšie použiť vzorec (1.1), pretože Okrem samotnej hodnoty kovariancie môžete použiť aj výsledky medzivýpočtov.

1.1 Vypočítajme korelačný koeficient pomocou vzorca (1.4), aby sme to urobili, vypočítame hodnoty x k 2, y k 2 a x k y k a zadáme ich do tabuľky 1.

stôl 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Vypočítajme M x pomocou vzorca (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

Mx = 25,750000

1.3. Vypočítajme M y podobným spôsobom.

1.3.1. Pridajme postupne všetky prvky y k

y 1 + y 2 + ... + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Výsledný súčet vydeľte počtom prvkov vzorky

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Podobným spôsobom vypočítame M xy.

1.4.1. Pridajme postupne všetky prvky 6. stĺpca tabuľky 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Výsledný súčet vydeľte počtom prvkov

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Vypočítajme hodnotu S x 2 pomocou vzorca (1.6.).

1.5.1. Pridajme postupne všetky prvky 4. stĺpca tabuľky 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Výsledný súčet vydeľte počtom prvkov

17256.91000 / 26 = 663.72731

1.5.3. Odčítajte druhú mocninu M x od posledného čísla, aby ste získali hodnotu S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Vypočítajme hodnotu S y 2 pomocou vzorca (1.6.).

1.6.1. Pridajme postupne všetky prvky 5. stĺpca tabuľky 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Výsledný súčet vydeľte počtom prvkov

24191.84000 / 26 = 930.45538

1.6.3. Odčítajte druhú mocninu M y od posledného čísla, aby ste získali hodnotu S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Vypočítajme súčin veličín S x 2 a S y 2.

S x 2 Sy 2 = 0,66481 0,20538 = 0,136541

1.8. Zoberme druhú odmocninu posledného čísla a získame hodnotu S x S y.

S x Sy = 0,36951

1.9. Vypočítajme hodnotu korelačného koeficientu pomocou vzorca (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ODPOVEĎ: R x, y = -0,720279

2. Kontrolujeme významnosť korelačného koeficientu (overujeme hypotézu závislosti).

Pretože odhad korelačného koeficientu sa počíta na konečnej vzorke, a preto sa môže odchyľovať od jej hodnoty populácie, je potrebné otestovať významnosť korelačného koeficientu. Kontrola sa vykonáva pomocou t-testu:

t =
Rx, y
n - 2
1 - R 2 x, y
(2.1)

Náhodná hodnota t sleduje Studentovo t-rozdelenie a pomocou tabuľky t-rozdelenia je potrebné nájsť kritickú hodnotu kritéria (t kr.α) na danej hladine významnosti α. Ak t vypočítané podľa vzorca (2.1) v absolútnej hodnote je menšie ako t cr.α , potom medzi náhodnými premennými X a Y neexistuje žiadna závislosť. Inak experimentálne údaje nie sú v rozpore s hypotézou o závislosti náhodných premenných.


2.1. Vypočítajme hodnotu t-kritéria pomocou vzorca (2.1) a získame:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Pomocou tabuľky t-distribúcie určíme kritickú hodnotu parametra t cr.α

Požadovaná hodnota tcr.α sa nachádza na priesečníku riadku zodpovedajúceho počtu stupňov voľnosti a stĺpca zodpovedajúceho danej hladine významnosti α.
V našom prípade je počet stupňov voľnosti n - 2 = 26 - 2 = 24 a a = 0.05 , čo zodpovedá kritickej hodnote kritéria t cr.α = 2.064 (pozri tabuľku 2)

tabuľka 2 t-distribúcia

Počet stupňov voľnosti
(n - 2)
a = 0,1 a = 0,05 a = 0,02 a = 0,01 a = 0,002 a = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Porovnajme absolútnu hodnotu t-kritéria a t kr.α

Absolútna hodnota t-kritéria nie je menšia ako kritická hodnota t = 5,08680, t kr.α = 2,064, preto experimentálne údaje s pravdepodobnosťou 0,95(1 – α), neprotirečia hypotéze o závislosti náhodných premenných X a Y.

3. Vypočítajte koeficienty rovnice lineárnej regresie.

Lineárna regresná rovnica je rovnica priamky, ktorá aproximuje (približne opisuje) vzťah medzi náhodnými premennými X a Y. Ak predpokladáme, že hodnota X je voľná a Y je závislá od X, potom sa regresná rovnica zapíše ako nasleduje


Y = a + b X (3.1), kde:

b =Rx, y
σy
σ x
= Rx, y
S y
S x
(3.2),
a = M y - b M x (3,3)

Koeficient vypočítaný pomocou vzorca (3.2) b nazývaný koeficient lineárnej regresie. V niektorých zdrojoch a sa nazýva konštantný regresný koeficient a b podľa premenných.

Chyby pri predpovedaní Y pre danú hodnotu X sa vypočítajú pomocou vzorcov:

Nazýva sa aj veličina σ y/x (vzorec 3.4). zvyšková štandardná odchýlka, charakterizuje odchýlku hodnoty Y od regresnej priamky opísanej rovnicou (3.1) pre pevnú (danú) hodnotu X.

.
Sy2/Sx2 = 0,20538 / 0,66481 = 0,30894. Vezmime druhú odmocninu posledného čísla a získame:
Sy/Sx = 0,55582

3.3 Vypočítajme koeficient b podľa vzorca (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Vypočítajme koeficient a podľa vzorca (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Odhadnime chyby regresnej rovnice.

3.5.1 Ak vezmeme druhú odmocninu z S y 2 dostaneme:

= 0.31437
3.5.4 Vypočítajme relatívnu chybu pomocou vzorca (3.5)

δ y/x = (0,31437 / 30,50000) 100 % = 1,03073 %

4. Zostavíme bodový diagram (korelačné pole) a regresný čiarový graf.

Bodový graf je grafické znázornenie zodpovedajúcich párov (x k, y k) ako bodov v rovine, v pravouhlých súradniciach s osami X a Y. Korelačné pole je jedným z grafických znázornení súvisiacej (párovej) vzorky. V rovnakom súradnicovom systéme je vynesený aj regresný čiarový graf. Mierky a počiatočné body na osiach by sa mali vyberať opatrne, aby sa zabezpečilo, že diagram bude čo najjasnejší.

4.1. Nájdite minimálny a maximálny prvok vzorky X je 18. a 15. prvok, x min = 22,10000 a x max = 26,60000.

4.2. Zistili sme, že minimálny a maximálny prvok vzorky Y sú 2. a 18. prvok, y min = 29,40000 a y max = 31,60000.

4.3. Na osi x vyberte začiatočný bod mierne naľavo od bodu x 18 = 22,10000 a takú mierku, aby sa bod x 15 = 26,60000 zmestil na os a zvyšné body boli jasne viditeľné.

4.4. Na zvislej osi vyberte začiatočný bod mierne naľavo od bodu y 2 = 29,40000 a takú mierku, aby sa bod y 18 = 31,60000 zmestil na os a ostatné body boli jasne rozlíšiteľné.

4.5. Hodnoty x k umiestnime na vodorovnú os a hodnoty y k na zvislú os.

4.6. Body (x 1, y 1), (x 2, y 2),…, (x 26, y 26) vynesieme do súradnicovej roviny. Získame rozptylový diagram (korelačné pole) znázornený na obrázku nižšie.

4.7. Nakreslíme regresnú čiaru.

Aby sme to dosiahli, nájdeme dva rôzne body so súradnicami (x r1, y r1) a (x r2, y r2), ktoré spĺňajú rovnicu (3.6), vynesieme ich do súradnicovej roviny a nakreslíme cez ne priamku. Ako úsečku prvého bodu berieme hodnotu x min = 22,10000. Dosadením hodnoty x min do rovnice (3.6) dostaneme ordinátu prvého bodu. Máme teda bod so súradnicami (22,10000, 31,96127). Podobným spôsobom získame súradnice druhého bodu, pričom na úsečku dáme hodnotu x max = 26,60000. Druhý bod bude: (26,60000, 30,15970).

Regresná čiara je znázornená na obrázku nižšie červenou farbou

Upozorňujeme, že regresná čiara vždy prechádza bodom priemerných hodnôt X a Y, t.j. so súradnicami (M x , M y).

Účel korelačnej analýzy je identifikovať odhad sily spojenia medzi náhodnými premennými (vlastnosťami), ktoré charakterizujú nejaký reálny proces.
Problémy korelačnej analýzy:
a) Meranie stupňa koherencie (tesnosti, sily, závažnosti, intenzity) dvoch alebo viacerých javov.
b) Výber faktorov, ktoré majú najvýraznejší vplyv na výsledný atribút, na základe merania miery spojitosti medzi javmi. Faktory, ktoré sú v tomto aspekte významné, sa ďalej používajú v regresnej analýze.
c) Zisťovanie neznámych príčinných súvislostí.

Formy prejavu vzťahov sú veľmi rôznorodé. Najbežnejšie typy sú funkčné (kompletné) a korelačné (neúplné) spojenie.
Korelácia sa prejavuje v priemere pre hromadné pozorovania, keď dané hodnoty závislej premennej zodpovedajú určitej sérii pravdepodobnostných hodnôt nezávislej premennej. Vzťah sa nazýva korelácia, ak každá hodnota faktorovej charakteristiky zodpovedá dobre definovanej nenáhodnej hodnote výslednej charakteristiky.
Vizuálna reprezentácia korelačnej tabuľky je korelačné pole. Je to graf, kde sú hodnoty X vynesené na osi x, hodnoty Y sú vynesené na osi y a kombinácie X a Y sú znázornené bodkami Podľa umiestnenia bodiek je možné posúdiť prítomnosť spojenia.
Indikátory blízkosti spojenia umožňujú charakterizovať závislosť variácie výsledného znaku od variácie faktorového znaku.
Pokročilejší ukazovateľ stupňa preplnenosti korelačné spojenie je lineárny korelačný koeficient. Pri výpočte tohto ukazovateľa sa berú do úvahy nielen odchýlky jednotlivých hodnôt charakteristiky od priemeru, ale aj samotná veľkosť týchto odchýlok.

Kľúčovými otázkami tejto témy sú rovnice regresného vzťahu medzi efektívnou charakteristikou a vysvetľujúcou premennou, metóda najmenších štvorcov na odhad parametrov regresného modelu, analýza kvality výslednej regresnej rovnice, konštrukcia intervalov spoľahlivosti na predpovedanie hodnoty efektívnej charakteristiky pomocou regresnej rovnice.

Príklad 2


Systém normálnych rovníc.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pre naše údaje má sústava rovníc tvar
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Z prvej rovnice vyjadríme A a dosaďte do druhej rovnice:
Dostaneme b = -3,46, a = 1379,33
Regresná rovnica:
y = -3,46 x + 1379,33

2. Výpočet parametrov regresnej rovnice.
Vzorové prostriedky.



Ukážkové odchýlky:


Smerodajná odchýlka


1.1. Korelačný koeficient
Kovariancia.

Vypočítame ukazovateľ blízkosti spojenia. Tento indikátor je vzorový lineárny korelačný koeficient, ktorý sa vypočíta podľa vzorca:

Koeficient lineárnej korelácie nadobúda hodnoty od –1 do +1.
Spojenie medzi charakteristikami môže byť slabé a silné (úzke). Ich kritériá sa hodnotia na Chaddockovej stupnici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
V našom príklade je vzťah medzi znakom Y a faktorom X vysoký a inverzný.
Okrem toho je možné korelačný koeficient lineárnych párov určiť pomocou regresného koeficientu b:

1.2. Regresná rovnica(odhad regresnej rovnice).

Rovnica lineárnej regresie je y = -3,46 x + 1379,33

Koeficient b = -3,46 vyjadruje priemernú zmenu efektívneho ukazovateľa (v merných jednotkách y) so zvýšením alebo znížením hodnoty faktora x na jednotku jeho merania. V tomto príklade sa pri zvýšení o 1 jednotku y zníži v priemere o -3,46.
Koeficient a = 1379,33 formálne ukazuje predpovedanú úroveň y, ale iba ak je x = 0 blízko k hodnotám vzorky.
Ak je však x=0 ďaleko od hodnôt vzorky x, potom doslovná interpretácia môže viesť k nesprávnym výsledkom, a aj keď regresná čiara opisuje pozorované hodnoty vzorky pomerne presne, neexistuje žiadna záruka, že to bude tiež byť v prípade extrapolácie vľavo alebo vpravo.
Nahradením príslušných hodnôt x do regresnej rovnice môžeme určiť zarovnané (predpovedané) hodnoty ukazovateľa výkonnosti y(x) pre každé pozorovanie.
Vzťah medzi y a x určuje znamienko regresného koeficientu b (ak > 0 - priamy vzťah, inak - inverzný). V našom príklade je spojenie opačné.
1.3. Koeficient elasticity.
Neodporúča sa používať regresné koeficienty (v príklade b) na priame posúdenie vplyvu faktorov na výslednú charakteristiku, ak existuje rozdiel v jednotkách merania výsledného ukazovateľa y a faktorovej charakteristiky x.
Na tieto účely sa vypočítajú koeficienty elasticity a koeficienty beta.
Priemerný koeficient elasticity E ukazuje, o koľko percent sa v priemere zmení výsledok v agregáte pri z jeho priemernej hodnoty pri zmene faktora X o 1 % svojej priemernej hodnoty.
Koeficient elasticity sa zistí podľa vzorca:


Koeficient elasticity je menší ako 1. Ak sa teda X zmení o 1 %, Y sa zmení o menej ako 1 %. Inými slovami, vplyv X na Y nie je významný.
Koeficient beta ukazuje, o akú časť hodnoty svojej smerodajnej odchýlky sa zmení priemerná hodnota výslednej charakteristiky, keď sa faktorová charakteristika zmení o hodnotu svojej smerodajnej odchýlky s hodnotou zostávajúcich nezávislých premenných fixovaných na konštantnej úrovni:

Tie. zvýšenie x o smerodajnú odchýlku S x povedie k zníženiu priemernej hodnoty Y o 0,74 smerodajnej odchýlky Sy.
1.4. Chyba aproximácie.
Vyhodnoťme kvalitu regresnej rovnice pomocou chyby absolútnej aproximácie. Priemerná chyba aproximácie - priemerná odchýlka vypočítaných hodnôt od skutočných:


Keďže chyba je menšia ako 15 %, túto rovnicu možno použiť ako regresiu.
Analýza rozptylu.
Účelom analýzy rozptylu je analyzovať rozptyl závislej premennej:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Kde
∑(y i - y cp) 2 - celkový súčet štvorcových odchýlok;
∑(y(x) - y cp) 2 - súčet druhých mocnín odchýlok spôsobených regresiou („vysvetlené“ alebo „faktoriálne“);
∑(y - y(x)) 2 - zvyškový súčet kvadrátov odchýlok.
Teoretický korelačný vzťah pre lineárne spojenie sa rovná korelačnému koeficientu r xy .
Pre akúkoľvek formu závislosti sa tesnosť spojenia určuje pomocou viacnásobný korelačný koeficient:

Tento koeficient je univerzálny, pretože odráža blízkosť vzťahu a presnosť modelu a možno ho použiť aj pre akúkoľvek formu spojenia medzi premennými. Pri konštrukcii jednofaktorového korelačného modelu sa viacnásobný korelačný koeficient rovná párovému korelačnému koeficientu r xy.
1.6. Koeficient determinácie.
Druhá mocnina (viacnásobného) korelačného koeficientu sa nazýva koeficient determinácie, ktorý ukazuje podiel variácie vo výslednom atribúte vysvetlenej variáciou v atribúte faktora.
Najčastejšie sa pri interpretácii koeficientu determinácie vyjadruje v percentách.
R2 = -0,742 = 0,5413
tie. v 54,13 % prípadov vedú zmeny x k zmenám y. Inými slovami, presnosť výberu regresnej rovnice je priemerná. Zvyšných 45,87 % zmeny Y je vysvetlených faktormi, ktoré nie sú v modeli zohľadnené.

Bibliografia

  1. Ekonometria: Učebnica / Ed. I.I. Eliseeva. – M.: Financie a štatistika, 2001, s. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Kurz pre začiatočníkov. Návod. – 2. vyd., rev. – M.: Delo, 1998, s. 17..42.
  3. Workshop z ekonometrie: Proc. príspevok / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko a ďalší; Ed. I.I. Eliseeva. – M.: Financie a štatistika, 2001, s. 5..48.

06.06.2018 16 235 0 Igor

Psychológia a spoločnosť

Všetko na svete je vzájomne prepojené. Každý človek sa na úrovni intuície snaží nájsť vzťahy medzi javmi, aby ich mohol ovplyvňovať a kontrolovať. Koncept, ktorý odráža tento vzťah, sa nazýva korelácia. Čo to znamená jednoduchými slovami?

Obsah:

Koncept korelácie

Korelácia (z latinského „correlatio“ - pomer, vzťah)– matematický pojem, ktorý znamená mieru štatistickej pravdepodobnostnej závislosti medzi náhodnými veličinami (premennými).



Príklad: Zoberme si dva typy vzťahov:

  1. najprv- pero v ruke človeka. Akým smerom sa pohybuje ruka, tým smerom ide pero. Ak je ruka v pokoji, pero nebude písať. Ak to človek stlačí trochu silnejšie, bude stopa na papieri bohatšia. Tento typ vzťahu odráža prísnu závislosť a nie je korelačný. Tento vzťah je funkčný.
  2. Druhý typ– vzťah medzi úrovňou vzdelania človeka a čítaním literatúry. Vopred nie je známe, ktorí ľudia čítajú viac: či s vyšším vzdelaním alebo bez neho. Toto spojenie je náhodné alebo stochastické, skúma ho štatistická veda, ktorá sa zaoberá výlučne masovými javmi. Ak štatistický výpočet umožní preukázať koreláciu medzi úrovňou vzdelania a čítaním literatúry, potom to umožní robiť akékoľvek prognózy a predpovedať pravdepodobnostný výskyt udalostí. Na tomto príklade možno s vysokou mierou pravdepodobnosti tvrdiť, že ľudia s vyšším vzdelaním, tí vzdelanejší, čítajú viac kníh. Ale keďže spojenie medzi týmito parametrami nie je funkčné, môžeme sa mýliť. Vždy sa dá vypočítať pravdepodobnosť takejto chyby, ktorá bude jednoznačne malá a nazýva sa hladina štatistickej významnosti (p).

Príklady vzťahov medzi prírodnými javmi sú: potravinový reťazec v prírode, ľudské telo, ktoré pozostáva z orgánových systémov, ktoré sú vzájomne prepojené a fungujú ako jeden celok.

Každý deň sa v každodennom živote stretávame so súvislosťami: medzi počasím a dobrou náladou, správnou formuláciou cieľov a ich dosahovaním, pozitívnym prístupom a šťastím, pocitom šťastia a finančnej pohody. My však hľadáme súvislosti, pričom sa nespoliehame na matematické výpočty, ale na mýty, intuíciu, povery a plané špekulácie. Tieto javy je veľmi ťažké preložiť do matematického jazyka, vyjadriť číslami a zmerať. Iná vec je, keď analyzujeme javy, ktoré sa dajú vypočítať a prezentovať vo forme čísel. V tomto prípade môžeme koreláciu definovať pomocou korelačného koeficientu (r), ktorý odráža silu, stupeň, blízkosť a smer korelácie medzi náhodnými premennými.

Silná korelácia medzi náhodnými premennými- dôkaz o prítomnosti nejakej štatistickej súvislosti špecificky medzi týmito javmi, ale túto súvislosť nemožno preniesť na rovnaké javy, ale pre inú situáciu. Výskumníci, ktorí vo svojich výpočtoch získali významnú koreláciu medzi dvoma premennými na základe jednoduchosti korelačnej analýzy, často robia falošné intuitívne predpoklady o existencii vzťahov príčin a následkov medzi charakteristikami, pričom zabúdajú, že korelačný koeficient je svojou povahou pravdepodobný. .

Príklad: počet zranených osôb počas poľadovice a počet dopravných nehôd medzi motorovými vozidlami. Tieto veličiny budú navzájom korelovať, hoci nie sú absolútne prepojené, ale majú súvislosť len so spoločnou príčinou týchto náhodných udalostí – čiernym ľadom. Ak analýza neodhalí koreláciu medzi javmi, ešte to nie je dôkazom neexistencie závislosti medzi nimi, ktorá môže byť komplexne nelineárna a korelačnými výpočtami ju neodhalia.




Prvý, kto zaviedol pojem korelácia do vedeckého využitia, boli Francúzi paleontológ Georges Cuvier. V 18. storočí odvodil zákon korelácie častí a orgánov živých organizmov, vďaka ktorému bolo možné z nájdených častí tela (pozostatkov) obnoviť vzhľad celého fosílneho tvora, zvieraťa. V štatistike termín korelácia prvýkrát použil v roku 1886 anglický vedec Francis Galton. Nevedel však odvodiť presný vzorec na výpočet korelačného koeficientu, ale jeho študent to urobil - slávny matematik a biológ Karl Pearson.

Typy korelácií

Podľa dôležitosti– veľmi významný, významný a bezvýznamný.

Druhy

čomu sa r rovná

Veľmi významné

r zodpovedá hladine štatistickej významnosti p<=0,01

Významné

r zodpovedá p<=0,05

Bezvýznamný

r nedosahuje p>0,1

Negatívne(zníženie hodnoty jednej premennej vedie k zvýšeniu úrovne druhej: čím viac fóbií má človek, tým menšia je pravdepodobnosť, že obsadí vedúcu pozíciu) a pozitívne (ak zvýšenie jednej premennej vedie k zvýšeniu v rovine iného: čím ste nervóznejší, tým je pravdepodobnejšie, že ochoriete). Ak medzi premennými neexistuje žiadna súvislosť, potom sa takáto korelácia nazýva nula.

Lineárne(keď sa jedna hodnota zvyšuje alebo znižuje, druhá sa tiež zvyšuje alebo znižuje) a nelineárne (keď sa pri zmene jednej hodnoty nedá popísať charakter zmeny druhej pomocou lineárneho vzťahu, potom sa aplikujú iné matematické zákony - polynóm, hyperbolický). vzťahy).

Silou.

Odds




V závislosti od toho, do ktorej stupnice patria skúmané premenné, sa vypočítajú rôzne typy korelačných koeficientov:

  1. Pearsonov korelačný koeficient, párový lineárny korelačný koeficient alebo súčinová momentová korelácia sa vypočítava pre premenné s intervalovými a škálovými meracími stupnicami.
  2. Koeficient poradovej korelácie Spearman alebo Kendall – keď aspoň jedna z veličín má ordinálnu stupnicu alebo nie je normálne rozdelená.
  3. Bodový biseriálny korelačný koeficient (Fechnerov koeficient korelácie so znamienkom) – ak je jedna z dvoch veličín dichotomická.
  4. Štvorpoľový korelačný koeficient (koeficient viacnásobnej hodnotovej korelácie (zhody) – ak sú dve premenné dichotomické.

Pearsonov koeficient sa týka parametrických korelačných ukazovateľov, všetky ostatné sú neparametrické.

Hodnota korelačného koeficientu sa pohybuje od -1 do +1. Pri úplnej pozitívnej korelácii r = +1, pri úplnej negatívnej korelácii r = -1.

Vzorec a výpočet





Príklady

Je potrebné určiť vzťah medzi dvoma premennými: úrovňou intelektuálneho rozvoja (podľa testovania) a počtom meškaní za mesiac (podľa záznamov vo vzdelávacom časopise) medzi školákmi.

Počiatočné údaje sú uvedené v tabuľke:

Údaje o IQ (x)

Údaje o počte meškaní (y)

Sum

1122

Priemerná

112,2


Pre správnu interpretáciu získaného ukazovateľa je potrebné analyzovať znamienko korelačného koeficientu (+ alebo -) a jeho absolútnu hodnotu (modulo).

V súlade s tabuľkou klasifikácie korelačného koeficientu podľa sily sme dospeli k záveru, že rxy = -0,827 je silne negatívna korelácia. Počet meškajúcich školákov teda veľmi silne závisí od úrovne ich intelektuálneho rozvoja. Môžeme povedať, že žiaci s vysokou úrovňou IQ meškajú na vyučovanie menej často ako žiaci s nízkou úrovňou IQ.



Korelačný koeficient môžu využiť ako vedci na potvrdenie alebo vyvrátenie predpokladu o závislosti dvoch veličín alebo javov a meranie jeho sily a významnosti, tak aj študenti na empirický a štatistický výskum v rôznych predmetoch. Treba mať na pamäti, že tento ukazovateľ nie je ideálnym nástrojom, počíta sa len na meranie sily lineárneho vzťahu a vždy bude pravdepodobnostnou hodnotou, ktorá má určitú chybu.

Korelačná analýza sa používa v týchto oblastiach:

  • ekonomická veda;
  • astrofyzika;
  • spoločenské vedy (sociológia, psychológia, pedagogika);
  • agrochémia;
  • hutníctvo;
  • priemysel (na kontrolu kvality);
  • hydrobiológia;
  • biometria atď.

Dôvody popularity metódy korelačnej analýzy:

  1. Relatívna jednoduchosť výpočtu korelačných koeficientov si nevyžaduje špeciálne matematické vzdelanie.
  2. Umožňuje vypočítať vzťahy medzi hromadnými náhodnými premennými, ktoré sú predmetom analýzy v štatistickej vede. V tomto smere sa táto metóda rozšírila v oblasti štatistického výskumu.

Dúfam, že teraz budete vedieť rozlíšiť funkčný vzťah od vzťahu korelačného a budete vedieť, že keď počujete v televízii alebo čítate v tlači o korelácii, znamená to pozitívnu a pomerne významnú vzájomnú závislosť medzi dvoma javmi.

Rôzne znaky môžu spolu súvisieť.

Sú medzi nimi 2 typy spojení:

  • funkčné;
  • korelácia.

Korelácia preložené do ruštiny nie je nič iné ako spojenie.
V prípade korelačného spojenia je možné vysledovať zhodu niekoľkých hodnôt jednej charakteristiky s niekoľkými hodnotami inej charakteristiky. Ako príklad môžeme uvažovať o zistených koreláciách medzi:

  • dĺžka labiek, krkov a zobákov vtákov, ako sú volavky, žeriavy a bociany;
  • ukazovatele telesnej teploty a srdcovej frekvencie.

Pre väčšinu biomedicínskych procesov bola prítomnosť tohto typu spojenia štatisticky dokázaná.

Štatistické metódy umožňujú zistiť skutočnosť existencie vzájomnej závislosti charakteristík. Použitie špeciálnych výpočtov na to vedie k stanoveniu korelačných koeficientov (miery konektivity).

Takéto výpočty sú tzv korelačná analýza. Vykonáva sa na potvrdenie závislosti 2 premenných (náhodných premenných) na sebe, ktorá je vyjadrená korelačným koeficientom.

Použitie korelačnej metódy vám umožňuje vyriešiť niekoľko problémov:

  • identifikovať existenciu vzťahu medzi analyzovanými parametrami;
  • znalosť prítomnosti korelácie nám umožňuje riešiť prognostické problémy. Existuje teda reálna možnosť predpovedať správanie parametra na základe analýzy správania iného korelujúceho parametra;
  • vykonávanie klasifikácie na základe výberu navzájom nezávislých znakov.

Pre premenné:

  • vo vzťahu k ordinálnej stupnici sa vypočíta Spearmanov koeficient;
  • súvisí s intervalovou stupnicou – Pearsonovým koeficientom.

Toto sú najčastejšie používané parametre, okrem nich existujú aj ďalšie.

Hodnota koeficientu môže byť vyjadrená kladne alebo záporne.

V prvom prípade, keď sa hodnota jednej premennej zvyšuje, pozoruje sa nárast druhej. Ak je koeficient záporný, vzor sa obráti.

Na čo slúži korelačný koeficient?

Náhodné premenné navzájom súvisiace môžu mať úplne odlišný charakter tohto spojenia. Nemusí to byť nevyhnutne funkčné, v prípade, keď je možné vysledovať priamy vzťah medzi veličinami. Najčastejšie sú obe veličiny ovplyvnené celým súborom rôznych faktorov v prípadoch, keď sú spoločné pre obe veličiny, je pozorovaný vznik súvisiacich vzorov;

To znamená, že štatisticky preukázaná skutočnosť existencie vzťahu medzi veličinami nepotvrdzuje, že príčina pozorovaných zmien bola zistená. Výskumník spravidla prichádza k záveru, že existujú dva vzájomne súvisiace dôsledky.

Vlastnosti korelačného koeficientu

Táto štatistická charakteristika má nasledujúce vlastnosti:

  • hodnota koeficientu sa pohybuje od -1 do +1. Čím bližšie k extrémnym hodnotám, tým silnejší je pozitívny alebo negatívny vzťah medzi lineárnymi parametrami. V prípade nulovej hodnoty hovoríme o absencii korelácie medzi charakteristikami;
  • kladná hodnota koeficientu naznačuje, že ak sa hodnota jednej charakteristiky zvýši, pozoruje sa zvýšenie druhej (pozitívna korelácia);
  • negatívna hodnota – v prípade zvýšenia hodnoty jednej charakteristiky sa pozoruje pokles druhej (negatívna korelácia);
  • priblíženie hodnoty indikátora k extrémnym bodom (buď -1 alebo +1) naznačuje prítomnosť veľmi silného lineárneho vzťahu;
  • ukazovatele charakteristiky sa môžu meniť, pričom hodnota koeficientu zostáva nezmenená;
  • korelačný koeficient je bezrozmerná veličina;
  • prítomnosť korelácie nemusí nevyhnutne potvrdiť vzťah príčiny a následku.

Hodnoty korelačných koeficientov

Sila korelácie môže byť charakterizovaná použitím Cheldockovej stupnice, v ktorej určitá číselná hodnota zodpovedá kvalitatívnej charakteristike.

V prípade pozitívnej korelácie s hodnotou:

  • 0-0,3 – korelácia je veľmi slabá;
  • 0,3-0,5 – slabé;
  • 0,5-0,7 – stredná pevnosť;
  • 0,7-0,9 – vysoká;
  • 0,9-1 – veľmi vysoká sila korelácie.

Stupnicu možno použiť aj na negatívnu koreláciu. V tomto prípade sú kvalitatívne charakteristiky nahradené opačnými.

Môžete použiť zjednodušenú Cheldockovu stupnicu, ktorá rozlišuje iba 3 stupne sily korelácie:

  • veľmi silné - ukazovatele ±0,7 - ±1;
  • priemer - ukazovatele ±0,3 - ±0,699;
  • veľmi slabé - ukazovatele 0 - ±0,299.

Tento štatistický ukazovateľ umožňuje nielen testovať predpoklad existencie lineárneho vzťahu medzi charakteristikami, ale aj stanoviť jeho silu.

Typy korelačného koeficientu

Korelačné koeficienty možno klasifikovať podľa znamienka a hodnoty:

  • pozitívny;
  • nulový;
  • negatívne.

V závislosti od analyzovaných hodnôt sa vypočíta koeficient:

  • Pearson;
  • Spearman;
  • Kendal;
  • Fechnerove znaky;
  • zhoda alebo viacnásobná rank korelácia.

Pearsonov korelačný koeficient sa používa na vytvorenie priamych vzťahov medzi absolútnymi hodnotami premenných. V tomto prípade by sa distribúcie oboch sérií premenných mali priblížiť k normálu. Porovnávané premenné sa musia líšiť v rovnakom počte rôznych charakteristík. Stupnica reprezentujúca premenné musí byť intervalová alebo pomerová.

  • presné stanovenie sily korelácie;
  • porovnanie kvantitatívnych charakteristík.

Použitie lineárneho Pearsonovho korelačného koeficientu má niekoľko nevýhod:

  • metóda je nestabilná v prípade odľahlých hodnôt číselných hodnôt;
  • Pomocou tejto metódy je možné určiť silu korelácie len pre lineárny vzťah, pre iné typy vzájomných vzťahov premenných treba použiť metódy regresnej analýzy.

Ranková korelácia je určená Spearmanovou metódou, ktorá umožňuje štatisticky študovať vzťah medzi javmi. Vďaka tomuto koeficientu sa vypočíta skutočný stupeň paralelnosti dvoch kvantitatívne vyjadrených radov charakteristík a posúdi sa aj tesnosť identifikovaného spojenia.

  • nevyžaduje presné určenie hodnoty korelačnej sily;
  • porovnávané ukazovatele majú kvantitatívny aj atribútový význam;
  • porovnanie radov charakteristík s otvorenými variantmi hodnôt.

Spearmanova metóda je neparametrická metóda analýzy, takže nie je potrebné kontrolovať normalitu rozloženia charakteristiky. Okrem toho umožňuje porovnávať ukazovatele vyjadrené v rôznych mierkach. Napríklad porovnanie počtu červených krviniek v určitom objeme krvi (priebežná stupnica) a odborné hodnotenie vyjadrené v bodoch (ordinálna stupnica).

Účinnosť metódy negatívne ovplyvňuje veľký rozdiel medzi hodnotami porovnávaných veličín. Metóda tiež nie je účinná v prípadoch, keď sa nameraná hodnota vyznačuje nerovnomerným rozložením hodnôt.

Postupný výpočet korelačného koeficientu v Exceli

Výpočet korelačného koeficientu zahŕňa postupné vykonávanie množstva matematických operácií.

Vyššie uvedený vzorec na výpočet Pearsonovho koeficientu ukazuje, ako je tento proces náročný na prácu, ak sa vykonáva ručne.
Využitie možností Excelu výrazne urýchľuje proces hľadania koeficientu.

Stačí postupovať podľa jednoduchého algoritmu akcií:

  • zadanie základných informácií - stĺpec hodnôt x a stĺpec hodnôt y;
  • v nástrojoch vyberte a otvorte kartu „Vzorce“;
  • na karte, ktorá sa otvorí, vyberte „Vložiť funkciu fx“;
  • v dialógovom okne, ktoré sa otvorí, vyberte štatistickú funkciu „Corel“, ktorá vám umožňuje vypočítať korelačný koeficient medzi 2 súbormi údajov;
  • okno, ktoré sa otvorí, zadajte údaje: pole 1 – rozsah hodnôt stĺpca x (údaje je potrebné vybrať), pole 2 – rozsah hodnôt stĺpca y;
  • po stlačení tlačidla „ok“ sa v riadku „hodnota“ zobrazí výsledok výpočtu koeficientu;
  • záver týkajúci sa prítomnosti korelácie medzi 2 súbormi údajov a jej silou.

Korelačný koeficient odráža mieru vzťahu medzi dvoma ukazovateľmi. Vždy nadobúda hodnotu od -1 do 1. Ak sa koeficient nachádza okolo 0, potom medzi premennými neexistuje žiadna súvislosť.

Ak je hodnota blízka jednej (napríklad od 0,9), potom medzi pozorovanými objektmi existuje silný priamy vzťah. Ak je koeficient blízko druhého krajného bodu rozsahu (-1), potom medzi premennými existuje silný inverzný vzťah. Keď je hodnota niekde medzi 0 až 1 alebo 0 až -1, potom hovoríme o slabom spojení (priame alebo spätné). Tento vzťah sa zvyčajne neberie do úvahy: verí sa, že neexistuje.

Výpočet korelačného koeficientu v Exceli

Pozrime sa na príklad metód na výpočet korelačného koeficientu, vlastnosti priamych a inverzných vzťahov medzi premennými.

Hodnoty indikátorov x a y:

Y je nezávislá premenná, x je závislá premenná. Je potrebné nájsť silu (silný / slabý) a smer (priamy / inverzný) spojenia medzi nimi. Vzorec korelačného koeficientu vyzerá takto:


Aby sme to ľahšie pochopili, rozdeľme si to na niekoľko jednoduchých prvkov.

Medzi premennými je určený silný priamy vzťah.

Vstavaná funkcia CORREL zabraňuje zložitým výpočtom. Vypočítajme pomocou neho v Exceli koeficient párovej korelácie. Zavolajte sprievodcu funkciou. Nájdeme tú, ktorú potrebujeme. Argumenty funkcie sú pole hodnôt y a pole hodnôt x:

Ukážme hodnoty premenných na grafe:


Silné spojenie medzi y a x je viditeľné, pretože čiary prebiehajú takmer paralelne navzájom. Vzťah je priamy: y rastie - x rastie, y klesá - x klesá.



Matica párových korelačných koeficientov v Exceli

Korelačná matica je tabuľka na priesečníku riadkov a stĺpcov, v ktorej sa nachádzajú korelačné koeficienty medzi zodpovedajúcimi hodnotami. Má zmysel stavať ho pre niekoľko premenných.

Matica korelačných koeficientov v Exceli je vytvorená pomocou nástroja „Korelácia“ z balíka „Analýza údajov“.


Medzi hodnotami y a x1 bol nájdený silný priamy vzťah. Medzi x1 a x2 existuje silná spätná väzba. Neexistuje prakticky žiadna súvislosť s hodnotami v stĺpci x3.