05.03.2024

Kako izračunati korelacijski koeficient. Korelacijski koeficienti. Uporaba Excela za izračun korelacijskih koeficientov


Opaziti! Rešitev vašega specifičnega problema bo podobna temu primeru, vključno z vsemi spodnjimi tabelami in pojasnjevalnimi besedili, vendar ob upoštevanju vaših začetnih podatkov ...

Naloga:
Obstaja soroden vzorec 26 parov vrednosti (x k,y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Potrebno za izračun/naris:
- korelacijski koeficient;
- preizkusiti hipotezo o odvisnosti slučajnih spremenljivk X in Y, pri stopnji pomembnosti α = 0,05;
- koeficienti enačbe linearne regresije;
- raztreseni diagram (korelacijsko polje) in regresijski črtni graf;

REŠITEV:

1. Izračunajte korelacijski koeficient.

Korelacijski koeficient je pokazatelj medsebojnega verjetnostnega vpliva dveh naključnih spremenljivk. Korelacijski koeficient R lahko vzame vrednosti iz -1 prej +1 . Če je absolutna vrednost bližja 1 , potem je to dokaz močne povezave med količinami, in če je bližje 0 - potem to kaže na šibko povezavo ali njeno odsotnost. Če je absolutna vrednost R enaka ena, potem lahko govorimo o funkcionalni povezavi med količinami, to pomeni, da lahko eno količino izrazimo preko druge z matematično funkcijo.


Korelacijski koeficient se lahko izračuna z naslednjimi formulami:
n
Σ
k = 1
(x k -M x) 2, σ y 2 =
M x =
1
n
n
Σ
k = 1
xk, moj =

ali po formuli

Rx,y =
M xy - M x M y
S x S y
(1.4), kjer je:
M x =
1
n
n
Σ
k = 1
xk, moj =
1
n
n
Σ
k = 1
y k, Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

V praksi se za izračun korelacijskega koeficienta pogosteje uporablja formula (1.4), ker zahteva manj računanja. Če pa je bila kovarianca predhodno izračunana cov(X,Y), potem je bolj donosno uporabiti formulo (1.1), ker Poleg same vrednosti kovariance lahko uporabite tudi rezultate vmesnih izračunov.

1.1 Izračunajmo korelacijski koeficient z uporabo formule (1.4), da bi to naredili, izračunamo vrednosti x k 2, y k 2 in x k y k in jih vnesemo v tabelo 1.

Tabela 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Izračunajmo M x z uporabo formule (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Izračunajmo M y na podoben način.

1.3.1. Dodajmo vse elemente zaporedno y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Dobljeno vsoto razdelite na število vzorčnih elementov

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Na podoben način izračunamo M xy.

1.4.1. Zaporedoma dodamo vse elemente 6. stolpca tabele 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Dobljeno vsoto razdelite na število elementov

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Izračunajmo vrednost S x 2 z uporabo formule (1.6.).

1.5.1. Zaporedoma dodamo vse elemente 4. stolpca tabele 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Dobljeno vsoto razdelite na število elementov

17256.91000 / 26 = 663.72731

1.5.3. Od zadnjega števila odštejte kvadrat M x, da dobite vrednost za S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Izračunajmo vrednost S y 2 z uporabo formule (1.6.).

1.6.1. Zaporedoma dodamo vse elemente 5. stolpca tabele 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Dobljeno vsoto razdelite na število elementov

24191.84000 / 26 = 930.45538

1.6.3. Od zadnjega števila odštejte kvadrat M y, da dobite vrednost za S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Izračunajmo produkt količin S x 2 in S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Izvlecimo kvadratni koren zadnjega števila in dobimo vrednost S x S y.

S x S y = 0,36951

1.9. Izračunajmo vrednost korelacijskega koeficienta s formulo (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ODGOVOR: R x,y = -0,720279

2. Preverimo pomembnost korelacijskega koeficienta (preverimo hipotezo o odvisnosti).

Ker je ocena korelacijskega koeficienta izračunana na končnem vzorcu in zato lahko odstopa od njegove populacijske vrednosti, je treba preveriti pomembnost korelacijskega koeficienta. Preverjanje poteka s t-testom:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Naključna vrednost t sledi Studentovi t-porazdelitvi in ​​z uporabo t-razdelitvene tabele je treba najti kritično vrednost kriterija (t cr.α) pri dani stopnji pomembnosti α. Če se t, izračunan po formuli (2.1), v absolutni vrednosti izkaže, da je manjši od t cr.α, potem ni odvisnosti med naključnima spremenljivkama X in Y. Sicer pa eksperimentalni podatki niso v nasprotju s hipotezo o odvisnosti naključnih spremenljivk.


2.1. Izračunajmo vrednost t-kriterija s formulo (2.1) in dobimo:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. S pomočjo tabele t-porazdelitve določimo kritično vrednost parametra t cr.α

Želena vrednost tcr.α se nahaja na presečišču vrstice, ki ustreza številu prostostnih stopinj, in stolpca, ki ustreza dani stopnji pomembnosti α.
V našem primeru je število prostostnih stopinj n - 2 = 26 - 2 = 24 in α = 0.05 , kar ustreza kritični vrednosti kriterija t cr.α = 2.064 (glej tabelo 2)

tabela 2 t-porazdelitev

Število prostostnih stopinj
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Primerjajmo absolutno vrednost t-kriterija in t cr.α

Absolutna vrednost t-kriterija ni manjša od kritične vrednosti t = 5,08680, t cr.α = 2,064, torej eksperimentalni podatki, z verjetnostjo 0,95(1 - α), niso v nasprotju s hipotezo o odvisnosti naključnih spremenljivk X in Y.

3. Izračunajte koeficiente linearne regresijske enačbe.

Linearna regresijska enačba je enačba ravne črte, ki aproksimira (približno opisuje) razmerje med naključnima spremenljivkama X in Y. Če predpostavimo, da je vrednost X prosta in je Y odvisen od X, bo regresijska enačba zapisana kot sledi


Y = a + b X (3.1), kjer je:

b =Rx,y
σy
σx
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Koeficient, izračunan po formuli (3.2) b imenujemo koeficient linearne regresije. V nekaterih virih a se imenuje konstanten regresijski koeficient in b glede na spremenljivke.

Napake pri napovedovanju Y za dano vrednost X se izračunajo z uporabo formul:

Imenuje se tudi količina σ y/x (formula 3.4). preostali standardni odklon, označuje odklon vrednosti Y od regresijske premice, ki jo opisuje enačba (3.1) za fiksno (dano) vrednost X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Vzemimo kvadratni koren zadnje številke in dobimo:
S y / S x = 0,55582

3.3 Izračunajmo koeficient b po formuli (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Izračunajmo koeficient a po formuli (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Ocenimo napake regresijske enačbe.

3.5.1 Če vzamemo kvadratni koren iz S y 2, dobimo:

= 0.31437
3.5.4 Izračunajmo relativno napako s formulo (3.5)

δ y/x = (0,31437 / 30,50000) 100 % = 1,03073 %

4. Zgradimo raztreseni diagram (korelacijsko polje) in regresijski črtni graf.

Raztreseni grafikon je grafični prikaz ustreznih parov (x k, y k) kot točk na ravnini, v pravokotnih koordinatah z osema X in Y. Korelacijsko polje je eden od grafičnih prikazov povezanega (parnega) vzorca. V istem koordinatnem sistemu je izrisan tudi regresijski črtni graf. Lestvice in začetne točke na oseh je treba skrbno izbrati, da zagotovite, da je diagram čim bolj jasen.

4.1. Poiščite najmanjši in največji element vzorca X je 18. oziroma 15. element, x min = 22,10000 in x max = 26,60000.

4.2. Najmanjši in največji element vzorca Y sta 2. oziroma 18. element, y min = 29,40000 in y max = 31,60000.

4.3. Na osi x izberite začetno točko nekoliko levo od točke x 18 = 22,10000 in v takšnem merilu, da se točka x 15 = 26,60000 prilega osi in so ostale točke jasno vidne.

4.4. Na ordinatni osi izberimo začetno točko nekoliko levo od točke y 2 = 29,40000 in v takem merilu, da se točka y 18 = 31,60000 prilega osi in da so ostale točke jasno razločljive.

4.5. Vrednosti x k postavimo na os abscise, vrednosti y k pa na ordinatno os.

4.6. Na koordinatno ravnino narišemo točke (x 1, y 1), (x 2, y 2),…, (x 26, y 26). Dobimo raztreseni diagram (korelacijsko polje), prikazan na spodnji sliki.

4.7. Narišimo regresijsko črto.

Da bi to naredili, poiščemo dve različni točki s koordinatama (x r1, y r1) in (x r2, y r2), ki ustrezata enačbi (3.6), ju narišemo na koordinatno ravnino in skozenj narišemo premico. Kot absciso prve točke vzamemo vrednost x min = 22,10000. Če nadomestimo vrednost x min v enačbo (3.6), dobimo ordinato prve točke. Tako imamo točko s koordinatami (22.10000, 31.96127). Na podoben način dobimo koordinate druge točke, pri čemer na absciso postavimo vrednost x max = 26,60000. Druga točka bo: (26.60000, 30.15970).

Regresijska črta je na spodnji sliki prikazana rdeče

Upoštevajte, da regresijska črta vedno poteka skozi točko povprečnih vrednosti X in Y, tj. s koordinatami (M x , M y).

Namen korelacijske analize je ugotoviti oceno moči povezave med naključnimi spremenljivkami (značilnostmi), ki označujejo nek realen proces.
Problemi korelacijske analize:
a) Merjenje stopnje koherence (bližine, moči, resnosti, intenzivnosti) dveh ali več pojavov.
b) Izbor dejavnikov, ki najbolj pomembno vplivajo na nastali atribut, na podlagi merjenja stopnje povezanosti med pojavi. Dejavnike, ki so s tega vidika pomembni, uporabimo naprej v regresijski analizi.
c) Odkrivanje neznanih vzročnih povezav.

Oblike manifestacije odnosov so zelo raznolike. Najpogostejši tipi so funkcionalni (popolni) in korelacijska (nepopolna) povezava.
Korelacija se kaže v povprečju za množična opazovanja, ko dane vrednosti odvisne spremenljivke ustrezajo določeni seriji verjetnostnih vrednosti neodvisne spremenljivke. Odnos se imenuje korelacija, če vsaka vrednost faktorske karakteristike ustreza točno določeni nenaključni vrednosti rezultantne karakteristike.
Vizualna predstavitev korelacijske tabele je korelacijsko polje. Je graf, kjer so na abscisni osi narisane vrednosti X, na ordinatni osi vrednosti Y, s pikami pa so prikazane kombinacije X in Y. Po lokaciji pik je mogoče presoditi o prisotnosti povezave.
Indikatorji tesnosti povezave omogočajo karakterizacijo odvisnosti variacije nastale lastnosti od variacije faktorske lastnosti.
Naprednejši indikator stopnje gneče korelacijsko povezavo je linearni korelacijski koeficient. Pri izračunu tega kazalnika se ne upoštevajo samo odstopanja posameznih vrednosti značilnosti od povprečja, temveč tudi sama velikost teh odstopanj.

Ključna vprašanja te teme so enačbe regresijske povezave med efektivno karakteristiko in pojasnjevalno spremenljivko, metoda najmanjših kvadratov za ocenjevanje parametrov regresijskega modela, analiza kakovosti nastale regresijske enačbe, konstrukcija intervalov zaupanja za napovedovanje vrednosti efektivne karakteristike z uporabo regresijske enačbe.

Primer 2


Sistem normalnih enačb.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Za naše podatke ima sistem enačb obliko
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iz prve enačbe izrazimo A in nadomestimo v drugo enačbo:
Dobimo b = -3,46, a = 1379,33
Regresijska enačba:
y = -3,46 x + 1379,33

2. Izračun parametrov regresijske enačbe.
Vzorec pomeni.



Vzorčna odstopanja:


Standardni odklon


1.1. Korelacijski koeficient
Kovarianca.

Izračunamo indikator tesnosti povezave. Ta indikator je vzorčni linearni korelacijski koeficient, ki se izračuna po formuli:

Linearni korelacijski koeficient ima vrednosti od –1 do +1.
Povezave med značilnostmi so lahko šibke in močne (tesne). Njihova merila se ocenjujejo po Chaddockovi lestvici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
V našem primeru je razmerje med lastnostjo Y in faktorjem X visoko in obratno.
Poleg tega je korelacijski koeficient linearnega para mogoče določiti z regresijskim koeficientom b:

1.2. Regresijska enačba(ocena regresijske enačbe).

Enačba linearne regresije je y = -3,46 x + 1379,33

Koeficient b = -3,46 prikazuje povprečno spremembo efektivnega kazalnika (v merskih enotah y) s povečanjem ali zmanjšanjem vrednosti faktorja x na njegovo mersko enoto. V tem primeru se s povečanjem za 1 enoto y v povprečju zmanjša za -3,46.
Koeficient a = 1379,33 formalno kaže predvideno raven y, vendar le, če je x = 0 blizu vzorčnih vrednosti.
Toda če je x=0 daleč od vzorčnih vrednosti x, potem lahko dobesedna interpretacija vodi do napačnih rezultatov, in tudi če regresijska črta dokaj natančno opisuje opazovane vzorčne vrednosti, ni zagotovila, da bo tudi to pri ekstrapolaciji levo ali desno.
Z zamenjavo ustreznih vrednosti x v regresijsko enačbo lahko določimo poravnane (predvidene) vrednosti indikatorja uspešnosti y(x) za vsako opazovanje.
Razmerje med y in x določa predznak regresijskega koeficienta b (če je > 0 - neposredno razmerje, drugače - inverzno). V našem primeru je povezava obratna.
1.3. Koeficient elastičnosti.
Uporaba regresijskih koeficientov (v primeru b) za neposredno ocenjevanje vpliva dejavnikov na rezultantno značilnost ni priporočljiva, če obstaja razlika v merskih enotah rezultantnega kazalnika y in faktorske značilnosti x.
Za te namene se izračunajo koeficienti elastičnosti in beta koeficienti.
Povprečni koeficient elastičnosti E pove, za koliko odstotkov se bo v povprečju spremenil rezultat v agregatu pri od svoje povprečne vrednosti, ko se faktor spremeni x za 1 % njegove povprečne vrednosti.
Koeficient elastičnosti se določi po formuli:


Koeficient elastičnosti je manjši od 1. Torej, če se X spremeni za 1%, se bo Y spremenil za manj kot 1%. Z drugimi besedami, vpliv X na Y ni pomemben.
Beta koeficient prikazuje, za kakšen del vrednosti njegovega standardnega odklona se bo spremenila povprečna vrednost nastale karakteristike, ko se faktorska značilnost spremeni za vrednost svojega standardnega odklona z vrednostjo preostalih neodvisnih spremenljivk, fiksiranih na konstantni ravni:

Tisti. povečanje x za standardno deviacijo S x bo povzročilo zmanjšanje povprečne vrednosti Y za 0,74 standardne deviacije S y .
1.4. Napaka približka.
Ovrednotimo kakovost regresijske enačbe z uporabo napake absolutnega približka. Povprečna napaka aproksimacije - povprečno odstopanje izračunanih vrednosti od dejanskih:


Ker je napaka manjša od 15 %, lahko to enačbo uporabimo kot regresijo.
Analiza variance.
Namen analize variance je analiza variance odvisne spremenljivke:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Kje
∑(y i - y cp) 2 - skupna vsota kvadratov odstopanj;
∑(y(x) - y cp) 2 - vsota kvadratov odklonov zaradi regresije (“razloženo” ali “faktorialno”);
∑(y - y(x)) 2 - preostala vsota kvadratov odstopanj.
Teoretično korelacijsko razmerje za linearno povezavo je enak korelacijskemu koeficientu r xy .
Za katero koli obliko odvisnosti se tesnost povezave določi z uporabo večkratni korelacijski koeficient:

Ta koeficient je univerzalen, saj odraža tesnost povezave in natančnost modela, uporablja pa se lahko tudi za kakršno koli povezavo med spremenljivkami. Pri konstruiranju enofaktorskega korelacijskega modela je multipli korelacijski koeficient enak parnemu korelacijskemu koeficientu r xy.
1.6. Determinacijski koeficient.
Kvadrat (večkratnega) korelacijskega koeficienta imenujemo koeficient determinacije, ki prikazuje delež variacije rezultantnega atributa, razloženega z variacijo faktorskega atributa.
Najpogosteje je pri razlagi koeficienta determinacije izražen v odstotkih.
R2 = -0,742 = 0,5413
tiste. v 54,13 % primerov spremembe x povzročijo spremembe y. Z drugimi besedami, natančnost izbire regresijske enačbe je povprečna. Preostalih 45,87 % spremembe Y je razloženo z dejavniki, ki niso bili upoštevani v modelu.

Bibliografija

  1. Ekonometrija: Učbenik / Ed. I.I. Elisejeva. – M.: Finance in statistika, 2001, str. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Začetni tečaj. Vadnica. – 2. izd., prev. – M.: Delo, 1998, str. 17..42.
  3. Delavnica o ekonometriji: Proc. dodatek / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko in drugi; Ed. I.I. Elisejeva. – M.: Finance in statistika, 2001, str. 5..48.

06.06.2018 16 235 0 Igor

Psihologija in družba

Vse na svetu je med seboj povezano. Vsak človek na ravni intuicije poskuša najti razmerja med pojavi, da bi lahko nanje vplival in jih nadzoroval. Koncept, ki odraža to razmerje, se imenuje korelacija. Kaj to pomeni s preprostimi besedami?

Vsebina:

Koncept korelacije

Korelacija (iz latinskega "correlatio" - razmerje, odnos)– matematični izraz, ki pomeni mero statistične verjetnostne odvisnosti med naključnimi količinami (spremenljivkami).



primer: Vzemimo dve vrsti odnosov:

  1. najprej- pero v roki osebe. V katero smer se premika roka, v tisto smer gre pero. Če je roka pri miru, pero ne bo pisalo. Če ga človek malo bolj pritisne, bo znamenje na papirju bolj bogato. Ta vrsta razmerja odraža strogo odvisnost in ni korelacijska. To razmerje je funkcionalno.
  2. Druga vrsta– razmerje med stopnjo izobrazbe osebe in branjem literature. Vnaprej se ne ve, kdo več bere: tisti z visoko izobrazbo ali brez nje. Ta povezava je naključna ali stohastična, preučuje jo statistična znanost, ki se ukvarja izključno z množičnimi pojavi. Če bo s statističnim izračunom mogoče dokazati povezavo med stopnjo izobrazbe in branjem literature, bo to omogočilo kakršne koli napovedi in napovedovanje verjetnostnega poteka dogodkov. V tem primeru lahko z veliko verjetnostjo trdimo, da ljudje z visoko izobrazbo, tisti bolj izobraženi, berejo več knjig. A ker povezava med temi parametri ni funkcionalna, se lahko motimo. Vedno lahko izračunate verjetnost takšne napake, ki bo očitno majhna in se imenuje raven statistične pomembnosti (p).

Primeri odnosov med naravnimi pojavi so: prehranjevalna veriga v naravi, človeško telo, ki je sestavljeno iz organskih sistemov, ki so med seboj povezani in delujejo kot ena celota.

Vsak dan se v vsakdanjem življenju srečujemo s korelacijami: med vremenom in dobrim razpoloženjem, pravilno zastavljenimi cilji in njihovim doseganjem, pozitivnim odnosom in srečo, občutkom sreče in finančnim blagostanjem. Vendar iščemo povezave, pri čemer se ne zanašamo na matematične izračune, temveč na mite, intuicijo, vraževerja in prazne špekulacije. Te pojave je zelo težko prevesti v matematični jezik, izraziti v številkah in izmeriti. Druga stvar pa je, ko analiziramo pojave, ki jih je mogoče izračunati in predstaviti v obliki številk. V tem primeru lahko korelacijo definiramo s korelacijskim koeficientom (r), ki odraža moč, stopnjo, tesnost in smer korelacije med naključnimi spremenljivkami.

Močna korelacija med naključnimi spremenljivkami- dokaz o prisotnosti neke statistične povezave posebej med temi pojavi, vendar te povezave ni mogoče prenesti na iste pojave, ampak za drugo situacijo. Pogosto raziskovalci, ki so v svojih izračunih pridobili pomembno korelacijo med dvema spremenljivkama na podlagi preprostosti korelacijske analize, naredijo napačne intuitivne predpostavke o obstoju vzročno-posledičnih razmerij med značilnostmi, pri čemer pozabljajo, da je korelacijski koeficient verjetnostne narave. .

primer:število poškodovanih ob poledici in število prometnih nesreč z motornimi vozili. Te količine bodo med seboj korelirale, čeprav nikakor niso medsebojno povezane, ampak imajo le povezavo s skupnim vzrokom teh naključnih dogodkov - črnim ledom. Če analiza ne razkrije korelacije med pojavi, to še ni dokaz odsotnosti odvisnosti med njimi, ki je lahko kompleksno nelinearna in je korelacijski izračuni ne razkrijejo.




Prvi, ki so pojem korelacije v znanstveno rabo uvedli Francozi paleontolog Georges Cuvier. V 18. stoletju je izpeljal zakon korelacije delov in organov živih organizmov, zaradi česar je bilo mogoče iz najdenih delov telesa (ostankov) obnoviti videz celotnega fosilnega bitja, živali. V statistiki je izraz korelacija prvič uporabil leta 1886 angleški znanstvenik Francis Galton. Vendar ni mogel izpeljati natančne formule za izračun korelacijskega koeficienta, vendar je to storil njegov študent - slavni matematik in biolog Karl Pearson.

Vrste korelacije

Po pomembnosti– zelo pomembne, pomembne in nepomembne.

Vrste

čemu je r enak

Zelo pomembno

r ustreza stopnji statistične pomembnosti p<=0,01

Pomemben

r ustreza p<=0,05

Nepomembno

r ne doseže p>0,1

Negativno(zmanjšanje vrednosti ene spremenljivke povzroči zvišanje ravni druge: več fobij kot ima človek, manjša je verjetnost, da bo zasedel vodilni položaj) in pozitivno (če zvišanje ene spremenljivke povzroči zvišanje na ravni drugega: bolj ko si živčen, večja je verjetnost, da boš zbolel). Če med spremenljivkama ni povezave, se takšna korelacija imenuje ničelna.

Linearno(ko se ena vrednost poveča ali zmanjša, se poveča ali zmanjša tudi druga) in nelinearna (ko ob spremembi ene vrednosti narave spremembe druge ni mogoče opisati z linearnim razmerjem, se uporabijo drugi matematični zakoni - polinomski, hiperbolični odnosi).

Po moči.

kvote




Glede na to, kateri lestvici pripadajo proučevane spremenljivke, se izračunajo različne vrste korelacijskih koeficientov:

  1. Pearsonov korelacijski koeficient, parni linearni korelacijski koeficient ali produktna momentna korelacija se izračuna za spremenljivke z intervalnimi in merilnimi lestvicami.
  2. Spearmanov ali Kendallov rang korelacijski koeficient – ​​ko ima vsaj ena od količin ordinalno lestvico ali ni normalno porazdeljena.
  3. Točkovni biserijski korelacijski koeficient (Fechnerjev predznačni korelacijski koeficient) – če je ena od obeh količin dihotomna.
  4. Štiripoljski korelacijski koeficient (multiple rank korelacijski (konkordančni) koeficient – ​​če sta dve spremenljivki dihotomni.

Pearsonov koeficient se nanaša na parametrične korelacijske indikatorje, vsi ostali so neparametrični.

Vrednost korelacijskega koeficienta se giblje od -1 do +1. Pri popolni pozitivni korelaciji je r = +1, pri popolni negativni korelaciji pa r = -1.

Formula in izračun





Primeri

Ugotoviti je treba razmerje med dvema spremenljivkama: stopnjo intelektualnega razvoja (glede na testiranje) in število zamud na mesec (glede na vpise v vzgojni dnevnik) med šolarji.

Začetni podatki so predstavljeni v tabeli:

IQ podatki (x)

Podatek o številu zamud (y)

vsota

1122

Povprečje

112,2


Za pravilno razlago dobljenega kazalnika je potrebno analizirati predznak korelacijskega koeficienta (+ ali -) in njegovo absolutno vrednost (modulo).

V skladu s tabelo razvrstitve korelacijskega koeficienta po jakosti sklepamo, da je rxy = -0,827 močna negativna korelacija. Število zamujanja šolarjev je tako močno odvisno od stopnje njihovega intelektualnega razvoja. Lahko rečemo, da učenci z visokim IQ redkeje zamujajo k pouku kot učenci z nizkim IQ.



Korelacijski koeficient lahko uporabljajo tako znanstveniki, da potrdijo ali ovržejo predpostavko o odvisnosti dveh količin ali pojavov ter izmerijo njeno moč in pomen, kot tudi študentje za izvajanje empiričnih in statističnih raziskav pri različnih predmetih. Ne smemo pozabiti, da ta indikator ni idealno orodje; izračuna se samo za merjenje moči linearnega razmerja in bo vedno verjetnostna vrednost z določeno napako.

Korelacijska analiza se uporablja na naslednjih področjih:

  • ekonomske vede;
  • astrofizika;
  • družbene vede (sociologija, psihologija, pedagogika);
  • agrokemija;
  • metalurgija;
  • industrija (za nadzor kakovosti);
  • hidrobiologija;
  • biometrija itd.

Razlogi za priljubljenost metode korelacijske analize:

  1. Relativna preprostost izračuna korelacijskih koeficientov ne zahteva posebne matematične izobrazbe.
  2. Omogoča izračun odnosov med množičnimi naključnimi spremenljivkami, ki so predmet analize v statistični znanosti. V zvezi s tem je ta metoda postala zelo razširjena na področju statističnih raziskav.

Upam, da boste zdaj znali ločiti funkcionalno razmerje od korelacijskega razmerja in boste vedeli, da ko slišite na televiziji ali berete v tisku o korelaciji, to pomeni pozitivno in dokaj pomembno soodvisnost med dvema pojavoma.

Različni znaki so lahko med seboj povezani.

Med njimi sta dve vrsti povezav:

  • delujoč;
  • korelacija.

Korelacija prevedeno v ruščino ni nič drugega kot povezava.
V primeru korelacijske povezave je mogoče izslediti ujemanje več vrednosti ene značilnosti z več vrednostmi druge značilnosti. Kot primere lahko upoštevamo ugotovljene korelacije med:

  • dolžina tac, vratov in kljunov ptic, kot so čaplje, žerjavi in ​​štorklje;
  • indikatorji telesne temperature in srčnega utripa.

Za večino biomedicinskih procesov je prisotnost tovrstne povezave statistično dokazana.

Statistične metode omogočajo ugotavljanje dejstva obstoja soodvisnosti značilnosti. Uporaba posebnih izračunov za to vodi do določitve korelacijskih koeficientov (mer povezljivosti).

Takšni izračuni se imenujejo korelacijsko analizo. Izvaja se za potrditev odvisnosti 2 spremenljivk (naključnih spremenljivk) ena od druge, kar je izraženo s korelacijskim koeficientom.

Uporaba korelacijske metode vam omogoča, da rešite več težav:

  • ugotoviti obstoj povezave med analiziranimi parametri;
  • poznavanje prisotnosti korelacije nam omogoča reševanje problemov napovedovanja. Tako obstaja resnična priložnost za napovedovanje obnašanja parametra na podlagi analize obnašanja drugega korelacijskega parametra;
  • izvajanje klasifikacije na podlagi izbire lastnosti, neodvisnih druga od druge.

Za spremenljivke:

  • glede na ordinalno lestvico se izračuna Spearmanov koeficient;
  • povezana z intervalno lestvico – Pearsonov koeficient.

To so najpogosteje uporabljeni parametri, poleg njih obstajajo še drugi.

Vrednost koeficienta je lahko izražena pozitivno ali negativno.

V prvem primeru, ko se vrednost ene spremenljivke poveča, opazimo povečanje druge. Če je koeficient negativen, je vzorec obrnjen.

Za kaj je korelacijski koeficient?

Medsebojno povezane naključne spremenljivke imajo lahko povsem različne narave te povezave. Ni nujno, da bo funkcionalen, v primeru, ko je mogoče zaslediti neposredno povezavo med količinami. Najpogosteje na obe količini vpliva cel niz različnih dejavnikov, v primerih, ko so skupni obema količinama, pa opazimo nastanek povezanih vzorcev.

To pomeni, da statistično dokazano dejstvo obstoja povezave med količinami ne potrjuje ugotovitve vzroka za opažene spremembe. Praviloma raziskovalec sklepa, da gre za dve med seboj povezani posledici.

Lastnosti korelacijskega koeficienta

Ta statistična značilnost ima naslednje lastnosti:

  • vrednost koeficienta se giblje od -1 do +1. Bližje kot so skrajne vrednosti, močnejša je pozitivna ali negativna povezava med linearnimi parametri. V primeru ničelne vrednosti govorimo o odsotnosti korelacije med karakteristikami;
  • pozitivna vrednost koeficienta pomeni, da če se vrednost ene značilnosti poveča, opazimo povečanje druge (pozitivna korelacija);
  • negativna vrednost – v primeru povečanja vrednosti ene lastnosti opazimo zmanjšanje vrednosti druge (negativna korelacija);
  • približevanje vrednosti indikatorja skrajnim točkam (bodisi -1 bodisi +1) kaže na prisotnost zelo močne linearne povezave;
  • indikatorji značilnosti se lahko spremenijo, medtem ko vrednost koeficienta ostane nespremenjena;
  • korelacijski koeficient je brezdimenzijska količina;
  • prisotnost korelacije ne potrjuje nujno vzročno-posledične povezave.

Vrednosti korelacijskih koeficientov

Moč korelacije je mogoče označiti s pomočjo Cheldockove lestvice, v kateri določena številčna vrednost ustreza kvalitativni značilnosti.

V primeru pozitivne korelacije z vrednostjo:

  • 0-0,3 – korelacija je zelo šibka;
  • 0,3-0,5 - šibko;
  • 0,5-0,7 – srednja moč;
  • 0,7-0,9 - visoko;
  • 0,9-1 – zelo visoka korelacijska moč.

Lestvica se lahko uporablja tudi za negativno korelacijo. V tem primeru se kvalitativne značilnosti nadomestijo z nasprotnimi.

Uporabite lahko poenostavljeno Cheldockovo lestvico, ki razlikuje le 3 stopnje korelacijske moči:

  • zelo močna - kazalniki ±0,7 - ±1;
  • povprečje - kazalniki ±0,3 - ±0,699;
  • zelo šibka - indikatorji 0 - ±0,299.

Ta statistični kazalnik omogoča ne le preverjanje predpostavke o obstoju linearne povezave med značilnostmi, temveč tudi ugotavljanje njene moči.

Vrste korelacijskih koeficientov

Korelacijske koeficiente lahko razvrstimo po predznaku in vrednosti:

  • pozitivno;
  • nič;
  • negativno.

Odvisno od analiziranih vrednosti se izračuna koeficient:

  • Pearson;
  • kopjenik;
  • Kendal;
  • Fechnerjevi znaki;
  • skladnost ali večkratna korelacija.

Pearsonov korelacijski koeficient se uporablja za vzpostavitev neposrednih razmerij med absolutnimi vrednostmi spremenljivk. V tem primeru bi se morali porazdelitvi obeh nizov spremenljivk približati normalni. Primerjani spremenljivki se morata razlikovati v enakem številu spremenljivih karakteristik. Lestvica, ki predstavlja spremenljivke, mora biti intervalna ali razmerna lestvica.

  • natančno določanje korelacijske moči;
  • primerjava kvantitativnih značilnosti.

Uporaba linearnega Pearsonovega korelacijskega koeficienta ima nekaj slabosti:

  • metoda je nestabilna v primeru izstopov numeričnih vrednosti;
  • S to metodo je mogoče določiti korelacijsko moč le za linearno zvezo, za druge vrste medsebojnih razmerij spremenljivk pa je treba uporabiti metode regresijske analize.

Korelacija ranga je določena s Spearmanovo metodo, ki omogoča statistično preučevanje razmerja med pojavi. Zahvaljujoč temu koeficientu se izračuna dejanska stopnja vzporednosti dveh kvantitativno izraženih nizov karakteristik, oceni pa se tudi tesnost ugotovljene povezave.

  • ne zahteva natančne določitve vrednosti korelacijske sile;
  • primerjani kazalci imajo kvantitativni in atributivni pomen;
  • primerjava serij karakteristik z odprtimi variantami vrednosti.

Spearmanova metoda je neparametrična analizna metoda, zato ni potrebe po preverjanju normalnosti porazdelitve značilnosti. Poleg tega vam omogoča primerjavo kazalnikov, izraženih v različnih lestvicah. Na primer primerjava števila rdečih krvničk v določenem volumnu krvi (zvezna lestvica) in strokovne ocene, izražene v točkah (vrstna lestvica).

Na učinkovitost metode negativno vpliva velika razlika med vrednostmi primerjanih količin. Metoda tudi ni učinkovita v primerih, ko je za izmerjeno vrednost značilna neenakomerna porazdelitev vrednosti.

Izračun korelacijskega koeficienta v Excelu po korakih

Izračun korelacijskega koeficienta vključuje zaporedno izvajanje številnih matematičnih operacij.

Zgornja formula za izračun Pearsonovega koeficienta kaže, kako delovno intenziven je ta postopek, če se izvaja ročno.
Uporaba Excelovih zmogljivosti bistveno pospeši postopek iskanja koeficienta.

Dovolj je slediti preprostemu algoritmu dejanj:

  • vnos osnovnih podatkov - stolpec vrednosti x in stolpec vrednosti y;
  • v orodjih izberite in odprite zavihek »Formule«;
  • v zavihku, ki se odpre, izberite »Vstavi fx funkcijo«;
  • v pogovornem oknu, ki se odpre, izberite statistično funkcijo “Corel”, ki vam omogoča izračun korelacijskega koeficienta med 2 nizoma podatkov;
  • v okno, ki se odpre, vnesite podatke: polje 1 – obseg vrednosti stolpca x (podatki morajo biti izbrani), polje 2 – obseg vrednosti stolpca y;
  • pritisnete tipko "ok", rezultat izračuna koeficienta se prikaže v vrstici "vrednost";
  • sklep o prisotnosti korelacije med 2 nizoma podatkov in njeno močjo.

Korelacijski koeficient odraža stopnjo povezave med dvema kazalnikoma. Vedno ima vrednost od -1 do 1. Če se koeficient nahaja okoli 0, potem ni povezave med spremenljivkama.

Če je vrednost blizu ena (na primer od 0,9), potem obstaja močna neposredna povezava med opazovanimi objekti. Če je koeficient blizu druge skrajne točke razpona (-1), potem obstaja močna inverzna povezava med spremenljivkama. Ko je vrednost nekje med 0 do 1 ali 0 do -1, potem govorimo o šibki povezavi (direktni ali obratni). To razmerje se običajno ne upošteva: verjame se, da ne obstaja.

Izračun korelacijskega koeficienta v Excelu

Oglejmo si primer metod za izračun korelacijskega koeficienta, značilnosti neposredne in inverzne povezave med spremenljivkami.

Vrednosti indikatorjev x in y:

Y je neodvisna spremenljivka, x je odvisna spremenljivka. Ugotoviti je treba moč (močna/šibka) in smer (naprej/obratno) povezave med njima. Formula korelacijskega koeficienta izgleda takole:


Za lažje razumevanje ga razdelimo na več preprostih elementov.

Med spremenljivkama je določena močna neposredna povezava.

Vgrajena funkcija CORREL se izogne ​​zapletenim izračunom. Z njim izračunajmo korelacijski koeficient parov v Excelu. Pokličite čarovnika za funkcije. Najdemo pravega. Argumenti funkcije so niz vrednosti y in niz vrednosti x:

Pokažimo vrednosti spremenljivk na grafu:


Vidna je močna povezava med y in x, saj črte potekajo skoraj vzporedno druga z drugo. Odnos je neposreden: y narašča - x narašča, y pada - x pada.



Matrika korelacijskih koeficientov parov v Excelu

Korelacijska matrika je tabela, na presečišču vrstic in stolpcev, v kateri se nahajajo korelacijski koeficienti med ustreznimi vrednostmi. Smiselno ga je zgraditi za več spremenljivk.

Matriko korelacijskih koeficientov v Excelu sestavimo z orodjem “Korelacija” iz paketa “Analiza podatkov”.


Ugotovljena je bila močna neposredna povezava med vrednostma y in x1. Med x1 in x2 obstaja močna povratna informacija. Povezave z vrednostmi v stolpcu x3 praktično ni.