05.03.2024

Kako izračunati koeficijent korelacije. Koeficijenti korelacije. Korištenje programa Excel za izračun korelacijskih koeficijenata


Obavijest! Rješenje vašeg specifičnog problema izgledat će slično ovom primjeru, uključujući sve tablice i tekstove objašnjenja u nastavku, ali uzimajući u obzir vaše početne podatke...

Zadatak:
Postoji srodni uzorak od 26 parova vrijednosti (x k,y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Potrebno za izračunavanje/iscrtavanje:
- koeficijent korelacije;
- testirati hipotezu o ovisnosti slučajnih varijabli X i Y, na razini značajnosti α = 0,05;
- koeficijenti jednadžbe linearne regresije;
- dijagram raspršenja (korelacijsko polje) i regresijski linijski grafikon;

RIJEŠENJE:

1. Izračunajte koeficijent korelacije.

Koeficijent korelacije je pokazatelj međusobnog probabilističkog utjecaja dviju slučajnih varijabli. Koeficijent korelacije R može uzeti vrijednosti iz -1 prije +1 . Ako je apsolutna vrijednost bliža 1 , onda je to dokaz jake veze između količina, a ako je bliže 0 - onda to ukazuje na slabu vezu ili njenu odsutnost. Ako je apsolutna vrijednost R jednaka jedan, tada možemo govoriti o funkcionalnoj povezanosti veličina, odnosno da se jedna veličina može izraziti kroz drugu pomoću matematičke funkcije.


Koeficijent korelacije može se izračunati pomoću sljedećih formula:
n
Σ
k = 1
(x k -M x) 2 , σ y 2 =
Mx =
1
n
n
Σ
k = 1
xk, moj =

ili po formuli

Rx,y =
M xy - M x M y
S x S y
(1.4), gdje je:
Mx =
1
n
n
Σ
k = 1
xk, moj =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

U praksi se za izračunavanje koeficijenta korelacije češće koristi formula (1.4) jer zahtijeva manje računanja. Međutim, ako je kovarijanca prethodno izračunata cov(X,Y), tada je isplativije koristiti formulu (1.1), jer Osim same vrijednosti kovarijance, možete koristiti i rezultate međuizračunavanja.

1.1 Izračunajmo koeficijent korelacije pomoću formule (1.4), da bismo to učinili, izračunavamo vrijednosti x k 2, y k 2 i x k y k i unosimo ih u tablicu 1.

stol 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Izračunajmo M x pomoću formule (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Izračunajmo M y na sličan način.

1.3.1. Dodajmo sve elemente redom y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Podijelite dobiveni zbroj s brojem elemenata uzorka

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Na sličan način izračunavamo M xy.

1.4.1. Dodajmo redom sve elemente 6. stupca tablice 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Dobiveni zbroj podijelite s brojem elemenata

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Izračunajmo vrijednost S x 2 pomoću formule (1.6.).

1.5.1. Dodajmo redom sve elemente 4. stupca tablice 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Dobiveni zbroj podijelite s brojem elemenata

17256.91000 / 26 = 663.72731

1.5.3. Oduzmite kvadrat M x od posljednjeg broja da biste dobili vrijednost za S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Izračunajmo vrijednost S y 2 pomoću formule (1.6.).

1.6.1. Dodajmo redom sve elemente 5. stupca tablice 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Dobiveni zbroj podijelite s brojem elemenata

24191.84000 / 26 = 930.45538

1.6.3. Oduzmite kvadrat M y od posljednjeg broja kako biste dobili vrijednost za S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Izračunajmo umnožak veličina S x 2 i S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Izvadimo kvadratni korijen posljednjeg broja i dobijemo vrijednost S x S y.

S x S y = 0,36951

1.9. Izračunajmo vrijednost koeficijenta korelacije pomoću formule (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ODGOVOR: R x,y = -0,720279

2. Provjeravamo značajnost koeficijenta korelacije (provjeravamo hipotezu ovisnosti).

Budući da se procjena koeficijenta korelacije izračunava na konačnom uzorku i stoga može odstupati od njegove populacijske vrijednosti, potrebno je testirati značajnost koeficijenta korelacije. Provjera se vrši t-testom:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Slučajna vrijednost t slijedi Studentovu t-distribuciju i pomoću tablice t-distribucije potrebno je pronaći kritičnu vrijednost kriterija (t cr.α) na zadanoj razini značajnosti α. Ako se t izračunat formulom (2.1) u apsolutnoj vrijednosti pokaže manjim od t cr.α, tada ne postoji ovisnost između slučajnih varijabli X i Y. Inače, eksperimentalni podaci nisu u suprotnosti s hipotezom o ovisnosti slučajnih varijabli.


2.1. Izračunajmo vrijednost t-kriterija pomoću formule (2.1) i dobijemo:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Pomoću tablice t-distribucije određujemo kritičnu vrijednost parametra t cr.α

Željena vrijednost tcr.α nalazi se na sjecištu retka koji odgovara broju stupnjeva slobode i stupca koji odgovara zadanoj razini značajnosti α.
U našem slučaju broj stupnjeva slobode je n - 2 = 26 - 2 = 24 i α = 0.05 , što odgovara kritičnoj vrijednosti kriterija t cr.α = 2.064 (vidi tablicu 2)

tablica 2 t-distribucija

Broj stupnjeva slobode
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Usporedimo apsolutnu vrijednost t-kriterija i t cr.α

Apsolutna vrijednost t-kriterija nije manja od kritične vrijednosti t = 5,08680, t cr.α = 2,064, dakle eksperimentalni podaci, s vjerojatnošću 0,95(1 - α), ne proturječe hipotezi o ovisnosti slučajnih varijabli X i Y.

3. Izračunajte koeficijente jednadžbe linearne regresije.

Linearna regresijska jednadžba je jednadžba ravne linije koja aproksimira (približno opisuje) odnos između slučajnih varijabli X i Y. Ako pretpostavimo da je vrijednost X slobodna, a Y ovisan o X, tada će se regresijska jednadžba napisati kao slijedi


Y = a + b X (3.1), gdje je:

b =Rx,y
σy
σ x
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Koeficijent izračunat pomoću formule (3.2) b koji se naziva koeficijent linearne regresije. U nekim izvorima a naziva se konstantni koeficijent regresije i b prema varijablama.

Pogreške u predviđanju Y za danu vrijednost X izračunavaju se pomoću formula:

Naziva se i veličina σ y/x (formula 3.4). rezidualna standardna devijacija, karakterizira odstupanje vrijednosti Y od regresijske linije opisane jednadžbom (3.1) za fiksnu (zadanu) vrijednost X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Uzmimo kvadratni korijen zadnjeg broja i dobijemo:
S y / S x = 0,55582

3.3 Izračunajmo koeficijent b prema formuli (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Izračunajmo koeficijent a prema formuli (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Procijenimo pogreške regresijske jednadžbe.

3.5.1 Vađenjem kvadratnog korijena od S y 2 dobivamo:

= 0.31437
3.5.4 Izračunajmo relativnu pogrešku pomoću formule (3.5)

δ y/x = (0,31437 / 30,50000) 100% = 1,03073%

4. Gradimo dijagram raspršenja (korelacijsko polje) i regresijski linijski grafikon.

Dijagram raspršenosti je grafički prikaz odgovarajućih parova (x k, y k) kao točaka na ravnini, u pravokutnim koordinatama s osi X i Y. Korelacijsko polje je jedan od grafičkih prikaza povezanog (uparenog) uzorka. U istom koordinatnom sustavu iscrtava se i regresijski linijski grafikon. Ljestvice i početne točke na osi treba pažljivo odabrati kako bi dijagram bio što jasniji.

4.1. Odredite minimalni i maksimalni element uzorka X je 18. odnosno 15. element, x min = 22,10000 i x max = 26,60000.

4.2. Nalazimo da su minimalni i maksimalni element uzorka Y 2. odnosno 18. element, y min = 29,40000 i y max = 31,60000.

4.3. Na x-osi odaberite početnu točku malo lijevo od točke x 18 = 22,10000, i to u takvom mjerilu da točka x 15 = 26,60000 stane na os i da su preostale točke jasno vidljive.

4.4. Na osi ordinata odaberite početnu točku malo lijevo od točke y 2 = 29,40000, i to u takvom mjerilu da točka y 18 = 31,60000 stane na os, a ostale točke se jasno razlikuju.

4.5. Postavljamo x k vrijednosti na apscisnu os, a y k vrijednosti na ordinatnu os.

4.6. Na koordinatnu ravninu ucrtavamo točke (x 1, y 1), (x 2, y 2),…, (x 26, y 26). Dobivamo dijagram raspršenosti (korelacijsko polje) prikazan na slici ispod.

4.7. Povucimo regresijsku liniju.

Da bismo to učinili, pronaći ćemo dvije različite točke s koordinatama (x r1, y r1) i (x r2, y r2) koje zadovoljavaju jednadžbu (3.6), iscrtati ih na koordinatnu ravninu i kroz njih povući ravnu liniju. Kao apscisu prve točke uzimamo vrijednost x min = 22,10000. Zamjenom vrijednosti x min u jednadžbu (3.6) dobivamo ordinatu prve točke. Dakle, imamo točku s koordinatama (22.10000, 31.96127). Na sličan način dobivamo koordinate druge točke, stavljajući vrijednost x max = 26,60000 kao apscisu. Druga točka će biti: (26.60000, 30.15970).

Regresijska linija prikazana je na donjoj slici crvenom bojom

Imajte na umu da regresijska linija uvijek prolazi kroz točku prosječnih vrijednosti X i Y, tj. s koordinatama (M x , M y).

Svrha korelacijske analize je identificirati procjenu jačine veze između slučajnih varijabli (značajki) koje karakteriziraju neki stvarni proces.
Problemi korelacijske analize:
a) Mjerenje stupnja koherencije (bliskosti, jačine, ozbiljnosti, intenziteta) dviju ili više pojava.
b) Odabir čimbenika koji imaju najznačajniji utjecaj na rezultirajuće svojstvo, na temelju mjerenja stupnja povezanosti pojava. Faktori koji su značajni u ovom aspektu koriste se dalje u regresijskoj analizi.
c) Otkrivanje nepoznatih uzročno-posljedičnih odnosa.

Oblici manifestacije odnosa vrlo su raznoliki. Najčešći tipovi su funkcionalni (potpuni) i korelacija (nepotpuna) veza.
Poveznica očituje se u prosjeku za masovna promatranja, kada dane vrijednosti zavisne varijable odgovaraju određenom nizu vjerojatnosnih vrijednosti nezavisne varijable. Odnos se naziva korelacija, ako svaka vrijednost karakteristike faktora odgovara dobro definiranoj neslučajnoj vrijednosti rezultantne karakteristike.
Vizualni prikaz korelacijske tablice je korelacijsko polje. To je grafikon gdje su X vrijednosti iscrtane na apscisnoj osi, Y vrijednosti su iscrtane na osi ordinata, a kombinacije X i Y prikazane su točkama po položaju točaka, može se procijeniti prisutnost veze.
Indikatori bliskosti veze omogućuju karakterizaciju ovisnosti varijacije rezultirajućeg svojstva o varijaciji faktorskog svojstva.
Napredniji pokazatelj stupnja gužve korelacijski spoj je koeficijent linearne korelacije. Pri izračunavanju ovog pokazatelja ne uzimaju se u obzir samo odstupanja pojedinačnih vrijednosti karakteristike od prosjeka, već i sama veličina tih odstupanja.

Ključna pitanja ove teme su jednadžbe regresijskog odnosa između efektivne karakteristike i eksplanatorne varijable, metoda najmanjih kvadrata za procjenu parametara regresijskog modela, analiza kvalitete rezultirajuće regresijske jednadžbe, konstruiranje intervala pouzdanosti za predviđanje vrijednosti efektivne karakteristike pomoću regresijske jednadžbe.

Primjer 2


Sustav normalnih jednadžbi.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Za naše podatke sustav jednadžbi ima oblik
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iz prve jednadžbe izražavamo A i zamijenite u drugu jednadžbu:
Dobivamo b = -3,46, a = 1379,33
Regresijska jednadžba:
y = -3,46 x + 1379,33

2. Izračun parametara regresijske jednadžbe.
Uzorak znači.



Odstupanja uzorka:


Standardna devijacija


1.1. Koeficijent korelacije
Kovarijanca.

Izračunavamo pokazatelj blizine veze. Ovaj pokazatelj je koeficijent linearne korelacije uzorka, koji se izračunava po formuli:

Koeficijent linearne korelacije ima vrijednosti od –1 do +1.
Veze između karakteristika mogu biti slabe i jake (bliske). Njihovi kriteriji procjenjuju se na Chaddockovoj ljestvici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
U našem primjeru, odnos između svojstva Y i faktora X je visok i inverzan.
Osim toga, koeficijent korelacije linearnog para može se odrediti preko koeficijenta regresije b:

1.2. Regresijska jednadžba(procjena regresijske jednadžbe).

Jednadžba linearne regresije je y = -3,46 x + 1379,33

Koeficijent b = -3,46 pokazuje prosječnu promjenu efektivnog pokazatelja (u mjernim jedinicama y) s povećanjem ili smanjenjem vrijednosti faktora x po jedinici njegovog mjerenja. U ovom primjeru, s povećanjem od 1 jedinice, y se u prosjeku smanjuje za -3,46.
Koeficijent a = 1379,33 formalno pokazuje predviđenu razinu y, ali samo ako je x = 0 blizu vrijednosti uzorka.
Ali ako je x=0 daleko od vrijednosti uzorka x, tada doslovna interpretacija može dovesti do netočnih rezultata, pa čak i ako regresijska linija prilično točno opisuje promatrane vrijednosti uzorka, nema jamstva da će i to biti slučaj kada se ekstrapolira lijevo ili desno.
Zamjenom odgovarajućih x vrijednosti u regresijsku jednadžbu, možemo odrediti usklađene (predviđene) vrijednosti pokazatelja učinka y(x) za svako opažanje.
Odnos između y i x određuje predznak regresijskog koeficijenta b (ako je > 0 - izravni odnos, inače - inverzan). U našem primjeru veza je obrnuta.
1.3. Koeficijent elastičnosti.
Nije preporučljivo koristiti regresijske koeficijente (u primjeru b) za izravnu procjenu utjecaja čimbenika na rezultantno obilježje ako postoji razlika u mjernim jedinicama rezultantnog pokazatelja y i faktorskog obilježja x.
U tu svrhu izračunavaju se koeficijenti elastičnosti i beta koeficijenti.
Prosječni koeficijent elastičnosti E pokazuje za koliko će se postotaka u prosjeku promijeniti rezultat u agregatu na od svoje prosječne vrijednosti kada se faktor promijeni x za 1% svoje prosječne vrijednosti.
Koeficijent elastičnosti nalazi se po formuli:


Koeficijent elastičnosti je manji od 1. Dakle, ako se X promijeni za 1%, Y će se promijeniti za manje od 1%. Drugim riječima, utjecaj X na Y nije značajan.
Beta koeficijent pokazuje za koji dio vrijednosti svoje standardne devijacije će se promijeniti prosječna vrijednost rezultirajuće karakteristike kada se faktorska karakteristika promijeni za vrijednost svoje standardne devijacije uz vrijednost preostalih nezavisnih varijabli fiksiranih na konstantnoj razini:

Oni. povećanje x za standardnu ​​devijaciju S x dovest će do smanjenja prosječne vrijednosti Y za 0,74 standardne devijacije S y .
1.4. Pogreška aproksimacije.
Ocijenimo kvalitetu regresijske jednadžbe koristeći pogrešku apsolutne aproksimacije. Prosječna pogreška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:


Budući da je pogreška manja od 15%, ova se jednadžba može koristiti kao regresija.
Analiza varijance.
Svrha analize varijance je analiza varijance zavisne varijable:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Gdje
∑(y i - y cp) 2 - ukupni zbroj kvadrata odstupanja;
∑(y(x) - y cp) 2 - zbroj kvadrata odstupanja uslijed regresije (“objašnjeno” ili “faktorijel”);
∑(y - y(x)) 2 - rezidualni zbroj kvadrata odstupanja.
Teorijski korelacijski odnos za linearni spoj jednak je koeficijentu korelacije r xy .
Za bilo koji oblik ovisnosti, nepropusnost veze određuje se pomoću višestruki koeficijent korelacije:

Ovaj koeficijent je univerzalan jer odražava bliskost odnosa i točnost modela, a može se koristiti i za bilo koji oblik povezanosti varijabli. Kod konstruiranja jednofaktorskog korelacijskog modela višestruki koeficijent korelacije jednak je koeficijentu parne korelacije r xy.
1.6. Koeficijent determinacije.
Kvadrat koeficijenta (višestruke) korelacije naziva se koeficijent determinacije, koji pokazuje udio varijacije u rezultantnom atributu koji se objašnjava varijacijom faktorskog atributa.
Najčešće, kada se tumači koeficijent determinacije, on se izražava u postocima.
R2 = -0,742 = 0,5413
oni. u 54,13% slučajeva promjene x dovode do promjena y. Drugim riječima, točnost odabira regresijske jednadžbe je prosječna. Preostalih 45,87% promjene u Y objašnjava se faktorima koji nisu uzeti u obzir u modelu.

Bibliografija

  1. Ekonometrija: Udžbenik / Ed. I.I. Eliseeva. – M.: Financije i statistika, 2001., str. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Početni tečaj. Tutorial. – 2. izd., rev. – M.: Delo, 1998, str. 17..42.
  3. Radionica iz ekonometrije: Proc. dodatak / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i drugi; ur. I.I. Elisejeva. – M.: Financije i statistika, 2001., str. 5..48.

06.06.2018 16 235 0 Igore

Psihologija i društvo

Sve je na svijetu međusobno povezano. Svaka osoba na razini intuicije pokušava pronaći odnose među pojavama kako bi mogla utjecati na njih i kontrolirati ih. Koncept koji odražava ovaj odnos naziva se korelacija. Što to znači jednostavnim riječima?

Sadržaj:

Pojam korelacije

Korelacija (od latinskog “correlatio” - omjer, odnos)– matematički pojam koji označava mjeru statističke vjerojatnosne ovisnosti između slučajnih veličina (varijabli).



Primjer: Uzmimo dvije vrste odnosa:

  1. Prvi- olovka u ruci osobe. U kojem smjeru se kreće ruka, u tom smjeru ide i olovka. Ako ruka miruje, olovka neće pisati. Ako ga čovjek malo jače pritisne, trag na papiru će biti bogatiji. Ovaj tip odnosa odražava strogu ovisnost i nije korelacijski. Ovaj odnos je funkcionalan.
  2. Druga vrsta– odnos između razine obrazovanja osobe i čitanja literature. Ne zna se unaprijed tko više čita: oni s visokim obrazovanjem ili bez njega. Ta veza je slučajna ili stohastička; proučava je statistička znanost koja se bavi isključivo masovnim pojavama. Ako statističkim izračunom bude moguće dokazati korelaciju između stupnja obrazovanja i čitanosti literature, to će omogućiti bilo kakve prognoze i predviđanje vjerojatnosti događanja događaja. U ovom primjeru se s velikom vjerojatnošću može tvrditi da više knjiga čitaju ljudi s višim obrazovanjem, oni obrazovaniji. Ali budući da veza između ovih parametara nije funkcionalna, možda griješimo. Uvijek možete izračunati vjerojatnost takve pogreške, koja će biti očito mala i naziva se razina statističke značajnosti (p).

Primjeri odnosa između prirodnih pojava su: hranidbeni lanac u prirodi, ljudsko tijelo, koje se sastoji od organskih sustava koji su međusobno povezani i funkcioniraju kao jedinstvena cjelina.

Svakodnevno se u svakodnevnom životu susrećemo s korelacijama: između vremena i dobrog raspoloženja, točne formulacije ciljeva i njihovog ostvarenja, pozitivnog stava i sreće, osjećaja sreće i financijskog blagostanja. Ali mi tražimo veze, ne oslanjajući se na matematičke izračune, već na mitove, intuiciju, praznovjerja i prazna nagađanja. Te je fenomene vrlo teško prevesti u matematički jezik, izraziti brojevima i izmjeriti. Druga je stvar kada analiziramo fenomene koji se mogu izračunati i predstaviti u obliku brojeva. U ovom slučaju korelaciju možemo definirati pomoću koeficijenta korelacije (r), koji odražava snagu, stupanj, bliskost i smjer korelacije između slučajnih varijabli.

Jaka korelacija između slučajnih varijabli- dokaz o postojanju neke statističke veze konkretno između ovih pojava, ali se ta veza ne može prenijeti na iste pojave, već za drugu situaciju. Često istraživači, nakon što su u svojim izračunima dobili značajnu korelaciju između dviju varijabli, na temelju jednostavnosti korelacijske analize, stvaraju pogrešne intuitivne pretpostavke o postojanju uzročno-posljedičnih veza između karakteristika, zaboravljajući da je koeficijent korelacije probabilističke prirode. .

Primjer: broj ozlijeđenih osoba tijekom poledice i broj prometnih nesreća među motornim vozilima. Ove količine će korelirati jedna s drugom, iako apsolutno nisu međusobno povezane, već samo imaju vezu sa zajedničkim uzrokom ovih slučajnih događaja - crnim ledom. Ako analiza ne otkrije korelaciju među pojavama, to još nije dokaz nepostojanja ovisnosti među njima, koja može biti složena nelinearna i ne otkriva se izračunima korelacije.




Prvi koji su u znanstvenu upotrebu uveli pojam korelacije bili su Francuzi paleontolog Georges Cuvier. U 18. stoljeću izveo je zakon korelacije dijelova i organa živih organizama, zahvaljujući kojem je postalo moguće iz pronađenih dijelova tijela (ostataka) obnoviti izgled čitavog fosilnog bića, životinje. U statistici je termin korelacija prvi upotrijebio engleski znanstvenik 1886. godine Francis Galton. Ali on nije mogao izvesti točnu formulu za izračunavanje koeficijenta korelacije, ali je to učinio njegov učenik - poznati matematičar i biolog Karl Pearson.

Vrste korelacije

Po važnosti– vrlo značajan, značajan i beznačajan.

Vrste

čemu je r jednako

Vrlo značajno

r odgovara razini statističke značajnosti p<=0,01

Značajan

r odgovara str<=0,05

Beznačajno

r ne doseže p>0,1

Negativan(smanjenje vrijednosti jedne varijable dovodi do povećanja razine druge: što više fobija osoba ima, manja je vjerojatnost da će zauzeti vodeću poziciju) i pozitivno (ako povećanje jedne varijable dovodi do povećanja na razini drugog: što ste nervozniji, veća je vjerojatnost da ćete se razboljeti). Ako nema veze između varijabli, tada se takva korelacija naziva nultom.

Linearno(kada se jedna vrijednost povećava ili smanjuje, druga se također povećava ili smanjuje) i nelinearna (kada se pri promjeni jedne vrijednosti priroda promjene druge ne može opisati linearnim odnosom, tada se primjenjuju drugi matematički zakoni - polinomski, hiperbolički odnosi).

Po snazi.

Izgledi




Ovisno o tome kojoj ljestvici pripadaju varijable koje se proučavaju, izračunavaju se različite vrste koeficijenata korelacije:

  1. Pearsonov koeficijent korelacije, upareni linearni koeficijent korelacije ili korelacija momenta produkta izračunava se za varijable s mjernim skalama intervala i ljestvice.
  2. Spearmanov ili Kendallov rang koeficijent korelacije - kada barem jedna od veličina ima ordinalnu ljestvicu ili nije normalno raspoređena.
  3. Koeficijent točkaste biserijske korelacije (Fechnerov predznak koeficijent korelacije) – ako je jedna od dviju veličina dihotomna.
  4. Koeficijent korelacije četiri polja (koeficijent višestruke korelacije (konkordancije) – ako su dvije varijable dihotomne.

Pearsonov koeficijent odnosi se na parametarske pokazatelje korelacije, svi ostali su neparametarski.

Vrijednost koeficijenta korelacije kreće se od -1 do +1. Uz potpunu pozitivnu korelaciju, r = +1, uz potpunu negativnu korelaciju, r = -1.

Formula i izračun





Primjeri

Potrebno je utvrditi odnos između dviju varijabli: stupnja intelektualnog razvoja (prema testiranju) i broja kašnjenja mjesečno (prema upisima u odgojno-obrazovni dnevnik) kod učenika.

Početni podaci prikazani su u tablici:

IQ podaci (x)

Podaci o broju kašnjenja (y)

Iznos

1122

Prosjek

112,2


Za ispravno tumačenje dobivenog pokazatelja potrebno je analizirati predznak koeficijenta korelacije (+ ili -) i njegovu apsolutnu vrijednost (modulo).

Sukladno tablici klasifikacije koeficijenta korelacije po jakosti, zaključujemo da je rxy = -0,827 jaka negativna korelacija. Dakle, broj učenika koji kasne u školi vrlo snažno ovisi o stupnju njihova intelektualnog razvoja. Može se reći da učenici s visokom razinom IQ-a rjeđe kasne na nastavu od učenika s niskom razinom IQ-a.



Koeficijent korelacije mogu koristiti kako znanstvenici da potvrde ili opovrgnu pretpostavku o ovisnosti dviju veličina ili pojava i izmjere njenu snagu i značaj, tako i studenti za provođenje empirijskih i statističkih istraživanja u različitim predmetima. Mora se imati na umu da ovaj pokazatelj nije idealan alat; izračunava se samo za mjerenje snage linearnog odnosa i uvijek će biti vjerojatnosna vrijednost koja ima određenu pogrešku.

Korelacijska analiza koristi se u sljedećim područjima:

  • ekonomska znanost;
  • astrofizika;
  • društvene znanosti (sociologija, psihologija, pedagogija);
  • agrokemija;
  • metalurgija;
  • industrija (za kontrolu kvalitete);
  • hidrobiologija;
  • biometrija itd.

Razlozi popularnosti metode korelacijske analize:

  1. Relativna jednostavnost izračuna koeficijenata korelacije ne zahtijeva posebno matematičko obrazovanje.
  2. Omogućuje vam izračunavanje odnosa između masovnih slučajnih varijabli, koje su predmet analize u statističkoj znanosti. U tom smislu, ova metoda je postala široko rasprostranjena u području statističkih istraživanja.

Nadam se da ćete sada moći razlikovati funkcionalni odnos od korelacijskog odnosa i da ćete znati da kada čujete na televiziji ili čitate u tisku o korelaciji, to znači pozitivnu i prilično značajnu međuovisnost između dva fenomena.

Različiti znakovi mogu biti povezani jedni s drugima.

Između njih postoje 2 vrste veza:

  • funkcionalan;
  • poveznica.

Poveznica prevedeno na ruski nije ništa drugo nego veza.
U slučaju korelacijske veze, može se pratiti korespondencija nekoliko vrijednosti jedne karakteristike s nekoliko vrijednosti druge karakteristike. Kao primjere možemo uzeti u obzir utvrđene korelacije između:

  • duljina šapa, vrata i kljunova ptica kao što su čaplje, ždralovi i rode;
  • pokazatelji tjelesne temperature i otkucaja srca.

Za većinu biomedicinskih procesa prisutnost ove vrste veze je statistički dokazana.

Statističke metode omogućuju utvrđivanje činjenice postojanja međuovisnosti karakteristika. Korištenje posebnih izračuna za to dovodi do utvrđivanja korelacijskih koeficijenata (mjera povezanosti).

Takvi izračuni nazivaju se korelacijska analiza. Provodi se kako bi se potvrdila međusobna ovisnost 2 varijable (slučajne varijable), koja se izražava koeficijentom korelacije.

Korištenje metode korelacije omogućuje vam rješavanje nekoliko problema:

  • identificirati prisutnost odnosa između analiziranih parametara;
  • znanje o prisutnosti korelacije omogućuje nam rješavanje problema predviđanja. Dakle, postoji stvarna prilika da se predvidi ponašanje parametra na temelju analize ponašanja drugog korelirajućeg parametra;
  • provođenje klasifikacije na temelju odabira značajki neovisnih jedna o drugoj.

Za varijable:

  • u odnosu na ordinalnu ljestvicu izračunava se Spearmanov koeficijent;
  • vezan uz intervalnu ljestvicu – Pearsonov koeficijent.

Ovo su najčešće korišteni parametri, osim njih postoje i drugi.

Vrijednost koeficijenta može biti izražena pozitivno ili negativno.

U prvom slučaju, kako se povećava vrijednost jedne varijable, uočava se porast druge. Ako je koeficijent negativan, obrazac je obrnut.

Čemu služi koeficijent korelacije?

Slučajne varijable povezane jedna s drugom mogu imati potpuno različite prirode te veze. Neće nužno biti funkcionalan, u slučaju kada se može pratiti izravan odnos između količina. Najčešće na obje veličine utječe čitav niz različitih čimbenika; u slučajevima kada su zajednički objema veličinama, uočava se stvaranje povezanih obrazaca.

To znači da statistički dokazana činjenica o postojanju odnosa između veličina ne potvrđuje da je utvrđen uzrok uočenih promjena. U pravilu, istraživač zaključuje da postoje dvije međusobno povezane posljedice.

Svojstva koeficijenta korelacije

Ova statistička karakteristika ima sljedeća svojstva:

  • vrijednost koeficijenta se kreće od -1 do +1. Što su bliže ekstremnim vrijednostima, jača je pozitivna ili negativna veza između linearnih parametara. U slučaju nulte vrijednosti, govorimo o nepostojanju korelacije između obilježja;
  • pozitivna vrijednost koeficijenta pokazuje da ako se poveća vrijednost jednog obilježja, uočava se porast drugog (pozitivna korelacija);
  • negativna vrijednost – u slučaju porasta vrijednosti jednog obilježja uočava se pad drugog (negativna korelacija);
  • približavanje vrijednosti indikatora ekstremnim točkama (bilo -1 ili +1) ukazuje na prisutnost vrlo snažnog linearnog odnosa;
  • pokazatelji karakteristike mogu se mijenjati dok vrijednost koeficijenta ostaje nepromijenjena;
  • koeficijent korelacije je bezdimenzijska veličina;
  • prisutnost korelacije ne mora nužno potvrditi uzročno-posljedičnu vezu.

Vrijednosti koeficijenata korelacije

Snaga korelacije može se okarakterizirati pribjegavanjem Cheldockovoj ljestvici, u kojoj određena numerička vrijednost odgovara kvalitativnoj karakteristici.

U slučaju pozitivne korelacije s vrijednošću:

  • 0-0,3 – korelacija je vrlo slaba;
  • 0,3-0,5 – slabo;
  • 0,5-0,7 – srednja čvrstoća;
  • 0,7-0,9 – visoka;
  • 0,9-1 – vrlo visoka snaga korelacije.

Ljestvica se također može koristiti za negativnu korelaciju. U ovom slučaju, kvalitativne karakteristike zamjenjuju se suprotnim.

Možete koristiti pojednostavljenu Cheldockovu ljestvicu koja razlikuje samo 3 stupnja jakosti korelacije:

  • vrlo jaki - pokazatelji ±0,7 - ±1;
  • prosjek - pokazatelji ±0,3 - ±0,699;
  • vrlo slab - pokazatelji 0 - ±0,299.

Ovaj statistički pokazatelj omogućuje ne samo testiranje pretpostavke o postojanju linearnog odnosa između karakteristika, već i utvrđivanje njegove snage.

Vrste koeficijenata korelacije

Koeficijenti korelacije mogu se klasificirati prema predznaku i vrijednosti:

  • pozitivan;
  • ništavan;
  • negativan.

Ovisno o analiziranim vrijednostima izračunava se koeficijent:

  • Pearson;
  • Kopljanik;
  • Kendal;
  • Fechnerovi znakovi;
  • podudarnost ili višestruka korelacija ranga.

Pearsonov koeficijent korelacije koristi se za uspostavljanje izravnih odnosa između apsolutnih vrijednosti varijabli. U tom slučaju, distribucije obje serije varijabli trebale bi se približiti normalnim. Uspoređivane varijable moraju se razlikovati u istom broju različitih karakteristika. Ljestvica koja predstavlja varijable mora biti skala intervala ili omjera.

  • točno utvrđivanje snage korelacije;
  • usporedba kvantitativnih karakteristika.

Korištenje linearnog Pearsonovog koeficijenta korelacije ima nekoliko nedostataka:

  • metoda je nestabilna u slučaju ekstremnih brojčanih vrijednosti;
  • Koristeći ovu metodu, moguće je odrediti snagu korelacije samo za linearni odnos, a za ostale vrste međusobnih odnosa varijabli treba koristiti metode regresijske analize.

Korelacija ranga određena je Spearmanovom metodom, koja omogućuje statističko proučavanje odnosa između pojava. Zahvaljujući ovom koeficijentu izračunava se stvarni stupanj paralelizma dvaju kvantitativno izraženih nizova karakteristika, te procjenjuje čvrstoća identificirane povezanosti.

  • ne zahtijevaju precizno određivanje vrijednosti korelacijske sile;
  • uspoređeni pokazatelji imaju i kvantitativno i atributivno značenje;
  • usporedba niza karakteristika s otvorenim varijantama vrijednosti.

Spearmanova metoda je neparametarska metoda analize, tako da nema potrebe provjeravati normalnost distribucije neke karakteristike. Osim toga, omogućuje vam usporedbu pokazatelja izraženih na različitim ljestvicama. Primjerice, usporedba broja crvenih krvnih zrnaca u određenom volumenu krvi (kontinuirana ljestvica) i stručne ocjene izražene u bodovima (redna ljestvica).

Na učinkovitost metode negativno utječe velika razlika između vrijednosti uspoređivanih veličina. Metoda također nije učinkovita u slučajevima kada izmjerenu vrijednost karakterizira neravnomjerna raspodjela vrijednosti.

Korak po korak izračunavanje koeficijenta korelacije u Excelu

Izračunavanje koeficijenta korelacije uključuje sekvencijalno izvođenje niza matematičkih operacija.

Gornja formula za izračun Pearsonovog koeficijenta pokazuje koliko je ovaj proces zahtjevan ako se izvodi ručno.
Korištenje mogućnosti Excela značajno ubrzava proces pronalaženja koeficijenta.

Dovoljno je slijediti jednostavan algoritam radnji:

  • unos osnovnih podataka - stupac vrijednosti x i stupac vrijednosti y;
  • u alatima odaberite i otvorite karticu "Formule";
  • na kartici koja se otvori odaberite "Umetni fx funkciju";
  • u dijaloškom okviru koji se otvori odaberite statističku funkciju “Corel” koja vam omogućuje izračun koeficijenta korelacije između 2 skupa podataka;
  • u prozor koji se otvori unesite podatke: niz 1 – raspon vrijednosti stupca x (podaci moraju biti odabrani), niz 2 – raspon vrijednosti stupca y;
  • pritisne se tipka "ok", rezultat izračuna koeficijenta pojavljuje se u retku "vrijednost";
  • zaključak o prisutnosti korelacije između 2 skupa podataka i njezine snage.

Koeficijent korelacije odražava stupanj povezanosti dvaju pokazatelja. Uvijek ima vrijednost od -1 do 1. Ako se koeficijent nalazi oko 0, tada nema veze između varijabli.

Ako je vrijednost blizu jedan (od 0,9, na primjer), tada postoji jak izravni odnos između promatranih objekata. Ako je koeficijent blizu druge krajnje točke raspona (-1), tada postoji jaka inverzna veza između varijabli. Kada je vrijednost negdje između 0 do 1 ili 0 do -1, tada govorimo o slaboj vezi (izravnoj ili obrnutoj). Taj se odnos obično ne uzima u obzir: vjeruje se da ne postoji.

Izračun koeficijenta korelacije u Excelu

Pogledajmo primjer metoda za izračunavanje koeficijenta korelacije, značajke izravnih i obrnutih odnosa između varijabli.

Vrijednosti indikatora x i y:

Y je nezavisna varijabla, x je zavisna varijabla. Potrebno je pronaći snagu (jako/slabo) i smjer (naprijed/obrnuto) veze među njima. Formula koeficijenta korelacije izgleda ovako:


Da bismo ga lakše razumjeli, raščlanimo ga na nekoliko jednostavnih elemenata.

Između varijabli utvrđena je jaka izravna povezanost.

Ugrađena funkcija CORREL izbjegava složene izračune. Izračunajmo koeficijent korelacije para u Excelu pomoću njega. Pozovite čarobnjaka za funkcije. Pronalazimo onu koja nam treba. Argumenti funkcije su niz y vrijednosti i niz x vrijednosti:

Pokažimo vrijednosti varijabli na grafikonu:


Vidljiva je jaka veza između y i x, jer linije idu gotovo paralelno jedna s drugom. Veza je izravna: y raste - x raste, y opada - x opada.



Matrica koeficijenata korelacije parova u Excelu

Korelacijska matrica je tablica na sjecištu redaka i stupaca u kojoj se nalaze koeficijenti korelacije između odgovarajućih vrijednosti. Ima smisla izgraditi ga za nekoliko varijabli.

Matrica korelacijskih koeficijenata u Excelu konstruirana je pomoću alata “Correlation” iz paketa “Data Analysis”.


Između vrijednosti y i x1 pronađena je jaka izravna veza. Između x1 i x2 postoji jaka povratna veza. Praktično nema veze s vrijednostima u stupcu x3.