05.03.2024

Kuinka laskea korrelaatiokerroin. Korrelaatiokertoimet. Excelin käyttö korrelaatiokertoimien laskemiseen


Ilmoitus! Ratkaisu ongelmaasi näyttää samanlaiselta kuin tämä esimerkki, sisältäen kaikki alla olevat taulukot ja selittävät tekstit, mutta ottaen huomioon alkuperäiset tietosi...

Tehtävä:
Siihen liittyy 26 arvoparin näyte (x k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Laskemiseen/kuvaukseen vaaditaan:
- korrelaatiokerroin;
- testaa hypoteesia satunnaismuuttujien X ja Y riippuvuudesta merkitsevyystasolla α = 0,05;
- lineaarisen regressioyhtälön kertoimet;
- sirontakaavio (korrelaatiokenttä) ja regressioviivakaavio;

RATKAISU:

1. Laske korrelaatiokerroin.

Korrelaatiokerroin on kahden satunnaismuuttujan keskinäisen todennäköisyysvaikutuksen indikaattori. Korrelaatiokerroin R voi ottaa arvoja -1 ennen +1 . Jos absoluuttinen arvo on lähempänä 1 , tämä on todiste vahvasta yhteydestä määrien välillä, ja jos lähempänä 0 - tämä tarkoittaa heikkoa yhteyttä tai sen puuttumista. Jos absoluuttinen arvo R on yhtä suuri, silloin voidaan puhua suureiden välisestä toiminnallisesta yhteydestä, eli yksi suure voidaan ilmaista toisen kautta matemaattisen funktion avulla.


Korrelaatiokerroin voidaan laskea seuraavilla kaavoilla:
n
Σ
k = 1
(x k -M x) 2, σ y 2 =
Mx =
1
n
n
Σ
k = 1
xk, Minun =

tai kaavalla

Rx, y =
M xy - K x M v
S x S y
(1.4), jossa:
Mx =
1
n
n
Σ
k = 1
xk, Minun =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
v k 2 - kk 2 (1,6)

Käytännössä kaavaa (1.4) käytetään useammin korrelaatiokertoimen laskemiseen, koska se vaatii vähemmän laskentaa. Kuitenkin, jos kovarianssi on laskettu aiemmin cov(X,Y), silloin on kannattavampaa käyttää kaavaa (1.1), koska Itse kovarianssiarvon lisäksi voit käyttää myös välilaskentojen tuloksia.

1.1 Lasketaan korrelaatiokerroin kaavalla (1.4), tätä varten laskemme x k 2:n, y k 2:n ja x k y k:n arvot ja syötämme ne taulukkoon 1.

pöytä 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Lasketaan M x kaavalla (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Lasketaan M y samalla tavalla.

1.3.1. Lisätään kaikki elementit peräkkäin y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Jaa saatu summa näyteelementtien lukumäärällä

793.00000 / 26 = 30.50000

M v = 30.500000

1.4. Samalla tavalla lasketaan M xy.

1.4.1. Lisätään peräkkäin kaikki taulukon 1 kuudennen sarakkeen elementit

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Jaa saatu summa elementtien lukumäärällä

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Lasketaan S x 2:n arvo kaavalla (1.6.).

1.5.1. Lisätään peräkkäin kaikki taulukon 1 neljännen sarakkeen elementit

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Jaa saatu summa elementtien lukumäärällä

17256.91000 / 26 = 663.72731

1.5.3. Vähennä M x:n neliö viimeisestä luvusta saadaksesi arvon S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Lasketaan S y 2:n arvo kaavalla (1.6.).

1.6.1. Lisätään peräkkäin kaikki taulukon 1 5. sarakkeen elementit

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Jaa saatu summa elementtien lukumäärällä

24191.84000 / 26 = 930.45538

1.6.3. Vähennä M y:n neliö viimeisestä luvusta saadaksesi S y 2:n arvon

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Lasketaan suureiden S x 2 ja S y 2 tulo.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Otetaan viimeisen luvun neliöjuuri ja saadaan arvo S x S y.

S x Sy = 0,36951

1.9. Lasketaan korrelaatiokertoimen arvo kaavalla (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

VASTAUS: R x,y = -0,720279

2. Tarkistamme korrelaatiokertoimen merkityksen (tarkistamme riippuvuushypoteesin).

Koska korrelaatiokertoimen estimaatti lasketaan äärellisestä otoksesta ja voi siksi poiketa populaatioarvostaan, on tarpeen testata korrelaatiokertoimen merkitsevyys. Tarkastus tehdään t-testillä:

t =
Rx, y
n - 2
1 - R 2 x,y
(2.1)

Satunnainen arvo t seuraa Studentin t-jakaumaa ja t-jakaumataulukon avulla on tarpeen löytää kriteerin kriittinen arvo (t cr.α) annetulla merkitsevyystasolla α. Jos kaavalla (2.1) laskettu t absoluuttisena arvona osoittautuu pienemmäksi kuin t cr.α , niin satunnaismuuttujien X ja Y välillä ei ole riippuvuutta. Muuten kokeelliset tiedot eivät ole ristiriidassa satunnaismuuttujien riippuvuutta koskevan hypoteesin kanssa.


2.1. Lasketaan t-kriteerin arvo kaavalla (2.1) ja saadaan:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Määritämme t-jakaumataulukon avulla parametrin t cr.α kriittisen arvon

Haluttu tcr.α:n arvo sijaitsee vapausasteiden lukumäärää vastaavan rivin ja annettua merkitsevyystasoa α vastaavan sarakkeen leikkauskohdassa.
Meidän tapauksessamme vapausasteiden lukumäärä on n - 2 = 26 - 2 = 24 ja α = 0.05 , joka vastaa kriteerin kriittistä arvoa t cr.α = 2.064 (katso taulukko 2)

taulukko 2 t-jakelu

Vapausasteiden lukumäärä
(n - 2)
a = 0,1 a = 0,05 a = 0,02 a = 0,01 a = 0,002 a = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Verrataan t-kriteerin ja t cr.α:n itseisarvoa

T-kriteerin itseisarvo ei ole pienempi kuin kriittinen arvo t = 5,08680, t cr.α = 2,064, joten kokeelliset tiedot, todennäköisyydellä 0,95(1 - α), eivät ole ristiriidassa hypoteesin kanssa satunnaismuuttujien X ja Y riippuvuudesta.

3. Laske lineaarisen regressioyhtälön kertoimet.

Lineaarinen regressioyhtälö on suoran yhtälö, joka approksimoi (suunnilleen kuvaa) satunnaismuuttujien X ja Y välistä suhdetta. Jos oletetaan, että arvo X on vapaa ja Y on riippuvainen X:stä, regressioyhtälö kirjoitetaan seuraavasti: seuraa


Y = a + b X (3.1), jossa:

b =Rx, y
σy
σ x
= Rx, y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Kaavalla (3.2) laskettu kerroin b kutsutaan lineaariseksi regressiokertoimeksi. Joissakin lähteissä a kutsutaan vakioregressiokertoimeksi ja b muuttujien mukaan.

Virheet Y:n ennustamisessa tietylle arvolle X lasketaan kaavojen avulla:

Myös suuruutta σ y/x (kaava 3.4) kutsutaan jäännösstandardipoikkeama, se kuvaa arvon Y poikkeamaa yhtälön (3.1) kuvaamasta regressiosuorasta X:n kiinteälle (annetulle) arvolle.

.
Sy 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Otetaan viimeisen luvun neliöjuuri ja saadaan:
Sy/Sx = 0,55582

3.3 Lasketaan kerroin b kaavan (3.2) mukaan

b = -0.72028 0.55582 = -0.40035

3.4 Lasketaan kerroin a kaavan (3.3) mukaan

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Arvioidaan regressioyhtälön virheet.

3.5.1 Ottamalla S y 2:n neliöjuuren saamme:

= 0.31437
3.5.4 Lasketaan suhteellinen virhe kaavalla (3.5)

δ y/x = (0,31437 / 30,50000)100 % = 1,03073 %

4. Rakennamme sirontadiagrammin (korrelaatiokenttä) ja regressioviivakuvaajan.

Sirontakaavio on graafinen esitys vastaavista pareista (x k, y k) pisteinä tasossa, suorakaiteen muotoisina koordinaatteina X- ja Y-akselien kanssa. Korrelaatiokenttä on yksi toisiinsa liittyvän (parillisen) näytteen graafisista esityksistä. Myös regressioviivakaavio piirretään samaan koordinaattijärjestelmään. Akseleiden mittakaavat ja lähtökohdat tulee valita huolellisesti, jotta kaavio on mahdollisimman selkeä.

4.1. Etsi otoksen minimi- ja maksimielementti X on vastaavasti 18. ja 15. alkio, x min = 22.10000 ja x max = 26.60000.

4.2. Otoksen Y minimi- ja maksimielementti on 2. ja 18. elementti, vastaavasti, y min = 29.40000 ja y max = 31.60000.

4.3. Valitse x-akselilta aloituspiste hieman pisteen x 18 = 22,10000 vasemmalle puolelle ja niin mittakaavassa, että piste x 15 = 26,60000 sopii akselille ja loput pisteet näkyvät selvästi.

4.4. O

4.5. Asetamme x k-arvot abskissa-akselille ja y k-arvot ordinaatta-akselille.

4.6. Piirrämme pisteet (x 1, y 1), (x 2, y 2),…, (x 26, y 26) koordinaattitasolle. Saamme hajontakaavion (korrelaatiokentän), joka on esitetty alla olevassa kuvassa.

4.7. Piirretään regressioviiva.

Tätä varten etsitään kaksi erilaista pistettä, joiden koordinaatit (x r1, y r1) ja (x r2, y r2) täyttävät yhtälön (3.6), piirretään ne koordinaattitasolle ja piirretään niiden läpi suora. Ensimmäisen pisteen abskissaksi otetaan arvo x min = 22.10000. Korvaamalla arvon x min yhtälöön (3.6), saamme ensimmäisen pisteen ordinaatin. Siten meillä on piste, jonka koordinaatit (22.10000, 31.96127). Samalla tavalla saamme toisen pisteen koordinaatit laittamalla abskissaksi arvon x max = 26,60000. Toinen piste on: (26.60000, 30.15970).

Regressioviiva näkyy alla olevassa kuvassa punaisella

Huomaa, että regressioviiva kulkee aina X:n ja Y:n keskiarvojen pisteen läpi, ts. koordinaateilla (M x , M y).

Korrelaatioanalyysin tarkoitus on tunnistaa arvio todellista prosessia kuvaavien satunnaismuuttujien (ominaisuuksien) välisen yhteyden vahvuudesta.
Korrelaatioanalyysin ongelmat:
a) Kahden tai useamman ilmiön koherenssiasteen (läheisyys, voimakkuus, vakavuus, intensiteetti) mittaaminen.
b) Sellaisten tekijöiden valinta, joilla on merkittävin vaikutus tuloksena olevaan attribuuttiin, perustuen ilmiöiden välisen yhteyksien asteen mittaamiseen. Tässä suhteessa merkittäviä tekijöitä käytetään edelleen regressioanalyysissä.
c) Tuntemattomien syy-suhteiden havaitseminen.

Suhteiden ilmenemismuodot ovat hyvin erilaisia. Yleisimmät tyypit ovat toiminnallinen (täydellinen) ja korrelaatio (epätäydellinen) yhteys.
Korrelaatio ilmenee keskimäärin massahavainnoissa, kun riippuvan muuttujan annetut arvot vastaavat tiettyä riippumattoman muuttujan todennäköisyysarvojen sarjaa. Suhdetta kutsutaan korrelaatioksi, jos jokainen tekijäominaisuuden arvo vastaa tuloksena olevan ominaisuuden hyvin määriteltyä ei-satunnaista arvoa.
Korrelaatiotaulukon visuaalinen esitys on korrelaatiokenttä. Se on kaavio, jossa X-arvot on piirretty abskissa-akselille, Y-arvot on piirretty ordinaatta-akselille ja X- ja Y-yhdistelmät esitetään pisteillä Pisteiden sijainnin perusteella yhteydestä.
Yhteyden läheisyyden indikaattorit mahdollistavat tuloksena olevan ominaisuuden vaihtelun riippuvuuden karakterisoimisen tekijäominaisuuden vaihtelusta.
Edistyneempi tungostavuuden osoitin korrelaatioyhteys On lineaarinen korrelaatiokerroin. Tätä indikaattoria laskettaessa ei oteta huomioon vain ominaisuuden yksittäisten arvojen poikkeamia keskiarvosta, vaan myös näiden poikkeamien suuruus.

Tämän aiheen avainkysymyksiä ovat tehollisen ominaisuuden ja selittävän muuttujan välisen regressiosuhteen yhtälöt, pienimmän neliösumman menetelmä regressiomallin parametrien estimoimiseksi, tuloksena olevan regressioyhtälön laadun analysointi, luottamusvälien rakentaminen tehollisen ominaisuuden arvot regressioyhtälön avulla.

Esimerkki 2


Normaaliyhtälöjärjestelmä.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Tietojemme kannalta yhtälöjärjestelmällä on muoto
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Ensimmäisestä yhtälöstä, jonka ilmaisemme A ja korvaa toinen yhtälö:
Saamme b = -3,46, a = 1379,33
Regressioyhtälö:
y = -3,46 x + 1379,33

2. Regressioyhtälön parametrien laskenta.
Esimerkki tarkoittaa.



Esimerkkivarianssit:


Standardipoikkeama


1.1. Korrelaatiokerroin
Kovarianssi.

Laskemme yhteyden läheisyyden indikaattorin. Tämä indikaattori on otoksen lineaarinen korrelaatiokerroin, joka lasketaan kaavalla:

Lineaarinen korrelaatiokerroin saa arvot -1:stä +1:een.
Ominaisuuksien väliset yhteydet voivat olla heikkoja ja vahvoja (tiiviitä). Niiden kriteerit arvioidaan Chaddock-asteikolla:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Esimerkissämme piirteen Y ja tekijän X välinen suhde on korkea ja käänteinen.
Lisäksi lineaarinen parikorrelaatiokerroin voidaan määrittää regressiokertoimella b:

1.2. Regressioyhtälö(regressioyhtälön estimointi).

Lineaarisen regression yhtälö on y = -3,46 x + 1379,33

Kerroin b = -3,46 osoittaa tehollisen indikaattorin keskimääräisen muutoksen (mittayksiköissä y) tekijän x arvon kasvaessa tai pienentyessä sen mittayksikköä kohden. Tässä esimerkissä y pienenee 1 yksiköllä keskimäärin -3,46.
Kerroin a = 1379,33 näyttää muodollisesti y:n ennustetun tason, mutta vain jos x = 0 on lähellä näytearvoja.
Mutta jos x=0 on kaukana x:n näytearvoista, niin kirjaimellinen tulkinta voi johtaa vääriin tuloksiin, ja vaikka regressioviiva kuvaa havaitut näytearvot melko tarkasti, ei ole mitään takeita siitä, että tämä myös olla tilanne, kun ekstrapoloidaan vasemmalle tai oikealle.
Korvaamalla sopivat x-arvot regressioyhtälöön, voimme määrittää suoritusindikaattorin y(x) tasatut (ennustetut) arvot kullekin havainnolle.
Y:n ja x:n välinen suhde määrää regressiokertoimen b etumerkin (jos > 0 - suora suhde, muuten - käänteinen). Esimerkissämme yhteys on päinvastainen.
1.3. Elastisuuskerroin.
Ei ole suositeltavaa käyttää regressiokertoimia (esimerkissä b) arvioimaan suoraan tekijöiden vaikutusta resultanttiominaispiirteeseen, jos resultantin indikaattorin y ja tekijän ominaiskäyrän x mittayksiköissä on ero.
Näitä tarkoituksia varten lasketaan elastisuuskertoimet ja beetakertoimet.
Keskimääräinen kimmokerroin E osoittaa, kuinka monta prosenttia tulos keskimäärin muuttuu aggregaatissa klo sen keskiarvosta kertoimen muuttuessa x 1 % sen keskiarvosta.
Elastisuuskerroin saadaan kaavasta:


Elastisuuskerroin on pienempi kuin 1. Siksi jos X muuttuu 1 %, Y muuttuu alle 1 %. Toisin sanoen X:n vaikutus Y:hen ei ole merkittävä.
Beta-kerroin osoittaa, kuinka suurella osalla sen keskihajonnan arvosta tuloksena olevan ominaisuuden keskiarvo muuttuu, kun tekijäominaisuus muuttuu keskihajonnansa arvolla muiden riippumattomien muuttujien arvon kanssa, jotka on kiinnitetty vakiotasolle:

Nuo. x:n lisäys keskihajonnalla S x johtaa Y:n keskiarvon pienenemiseen 0,74 keskihajonnan S y verran.
1.4. Arviointivirhe.
Arvioidaan regressioyhtälön laatu käyttämällä absoluuttisen approksimaatiovirhettä. Keskimääräinen likimääräinen virhe - laskettujen arvojen keskimääräinen poikkeama todellisista:


Koska virhe on alle 15%, tätä yhtälöä voidaan käyttää regressiona.
Varianssianalyysi.
Varianssianalyysin tarkoituksena on analysoida riippuvan muuttujan varianssia:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Missä
∑(y i - y cp) 2 - neliöpoikkeamien kokonaissumma;
∑(y(x) - y cp) 2 - regressiosta johtuvien neliöityjen poikkeamien summa ("selitetty" tai "tekijä");
∑(y - y(x)) 2 - neliöpoikkeamien jäännössumma.
Teoreettinen korrelaatiosuhde lineaariselle yhteydelle on yhtä suuri kuin korrelaatiokerroin r xy .
Kaikenlaisen riippuvuuden tapauksessa liitoksen tiiviys määritetään käyttämällä moninkertainen korrelaatiokerroin:

Tämä kerroin on universaali, koska se heijastaa yhteyden läheisyyttä ja mallin tarkkuutta, ja sitä voidaan käyttää myös mihin tahansa muuttujien väliseen yhteyteen. Kun rakennetaan yksitekijäkorrelaatiomallia, moninkertainen korrelaatiokerroin on yhtä suuri kuin parikorrelaatiokerroin r xy.
1.6. Määrityskerroin.
(Monikertaisen) korrelaatiokertoimen neliötä kutsutaan determinaatiokertoimeksi, joka osoittaa variaatioiden osuuden resultant-attribuutissa, joka selittää tekijäattribuutin vaihtelun.
Useimmiten determinaatiokerrointa tulkittaessa se ilmaistaan ​​prosentteina.
R2 = -0,742 = 0,5413
nuo. 54,13 %:ssa tapauksista x:n muutokset johtavat y:n muutoksiin. Toisin sanoen regressioyhtälön valinnan tarkkuus on keskimääräinen. Loput 45,87 % Y:n muutoksesta selittyvät tekijöillä, joita ei ole otettu mallissa huomioon.

Bibliografia

  1. Ekonometria: Oppikirja / Toim. I.I. Eliseeva. – M.: Rahoitus ja tilastot, 2001, s. 34...89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Alkeiskurssi. Opetusohjelma. – 2. painos, tarkistettu. – M.: Delo, 1998, s. 17...42.
  3. Ekonometria-työpaja: Proc. korvaus / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko ja muut; Ed. I.I. Eliseeva. – M.: Rahoitus ja tilastot, 2001, s. 5...48.

06.06.2018 16 235 0 Igor

Psykologia ja yhteiskunta

Kaikki maailmassa on yhteydessä toisiinsa. Jokainen ihminen yrittää intuition tasolla löytää suhteita ilmiöiden välillä voidakseen vaikuttaa ja hallita niitä. Tätä suhdetta kuvaavaa käsitettä kutsutaan korrelaatioksi. Mitä se tarkoittaa yksinkertaisilla sanoilla?

Sisältö:

Korrelaation käsite

Korrelaatio (latinan sanasta "correlatio" - suhde, suhde)– matemaattinen termi, joka tarkoittaa tilastollisen todennäköisyysriippuvuuden mittaa satunnaissuureiden (muuttujien) välillä.



Esimerkki: Otetaan kahdentyyppisiä suhteita:

  1. Ensimmäinen- kynä henkilön kädessä. Mihin suuntaan käsi liikkuu, siihen suuntaan kynä menee. Jos käsi on levossa, kynä ei kirjoita. Jos joku painaa sitä hieman kovemmin, paperin jälki on rikkaampi. Tämäntyyppinen suhde kuvastaa tiukkaa riippuvuutta, eikä se ole korrelaatiota. Tämä suhde on toimiva.
  2. Toinen tyyppi– henkilön koulutustason ja kirjallisuuden lukemisen välinen suhde. Ei tiedetä etukäteen, ketkä lukevat enemmän: korkeakoulutuksen saaneet vai ilman. Tämä yhteys on satunnainen tai stokastinen, sitä tutkii tilastotiede, joka käsittelee yksinomaan massailmiöitä. Jos tilastollinen laskelma mahdollistaa koulutustason ja kirjallisuuden lukemisen välisen korrelaation osoittamisen, niin tämä mahdollistaa mahdollisten ennusteiden tekemisen ja tapahtumien todennäköisyyden ennustamisen. Tässä esimerkissä voidaan suurella todennäköisyydellä väittää, että korkeasti koulutetut, koulutetuimmat lukevat enemmän kirjoja. Mutta koska näiden parametrien välinen yhteys ei ole toimiva, voimme erehtyä. Voit aina laskea tällaisen virheen todennäköisyyden, joka on selvästi pieni ja jota kutsutaan tilastollisen merkitsevyyden tasoksi (p).

Esimerkkejä luonnonilmiöiden välisistä suhteista ovat: ravintoketju luonnossa, ihmiskeho, joka koostuu toisiinsa liittyvistä ja yhtenä kokonaisuutena toimivista elinjärjestelmistä.

Joka päivä kohtaamme korrelaatioita arjessa: sään ja hyvän mielen, tavoitteiden oikean muotoilun ja niiden saavuttamisen, positiivisen asenteen ja onnen, onnen tunteen ja taloudellisen hyvinvoinnin välillä. Mutta me etsimme yhteyksiä luottaen emme matemaattisiin laskelmiin, vaan myytteihin, intuitioon, taikauskoon ja turhaan spekulaatioon. Näitä ilmiöitä on erittäin vaikea kääntää matemaattiselle kielelle, ilmaista numeroina ja mitata. Se on toinen asia, kun analysoimme ilmiöitä, jotka voidaan laskea ja esittää numeroina. Tässä tapauksessa voidaan määrittää korrelaatio käyttämällä korrelaatiokerrointa (r), joka heijastaa satunnaismuuttujien välisen korrelaation voimakkuutta, astetta, läheisyyttä ja suuntaa.

Vahva korrelaatio satunnaismuuttujien välillä- näyttöä jonkin tilastollisen yhteyden olemassaolosta erityisesti näiden ilmiöiden välillä, mutta tätä yhteyttä ei voida siirtää samoihin ilmiöihin, vaan eri tilanteeseen. Usein tutkijat, saatuaan laskelmissaan merkittävän korrelaation kahden muuttujan välillä korrelaatioanalyysin yksinkertaisuuteen perustuen, tekevät usein vääriä intuitiivisia oletuksia ominaisuuksien välisten syy-seuraus-suhteiden olemassaolosta unohtaen, että korrelaatiokerroin on luonteeltaan todennäköisyys. .

Esimerkki: jääolosuhteissa loukkaantuneiden määrä ja moottoriajoneuvojen liikenneonnettomuuksien määrä. Nämä suuret korreloivat keskenään, vaikka ne eivät todellakaan ole yhteydessä toisiinsa, vaan niillä on yhteys vain näiden satunnaisten tapahtumien yhteiseen syyn - mustaan ​​jäähän. Jos analyysi ei paljasta ilmiöiden välistä korrelaatiota, tämä ei vielä ole todiste niiden välisen riippuvuuden puuttumisesta, mikä voi olla monimutkaista epälineaarista eikä korrelaatiolaskelmien paljastamista.




Ensimmäinen, joka otti korrelaation käsitteen tieteelliseen käyttöön, oli ranska paleontologi Georges Cuvier. 1700-luvulla hän päätteli elävien organismien osien ja elinten korrelaatiolain, jonka ansiosta oli mahdollista palauttaa koko fossiilisen olennon, eläimen, ulkonäkö löydetyistä ruumiinosista (jäännöksistä). Tilastoissa termiä korrelaatio käytti ensimmäisen kerran vuonna 1886 englantilainen tiedemies Francis Galton. Mutta hän ei voinut johtaa tarkkaa kaavaa korrelaatiokertoimen laskemiseen, mutta hänen oppilaansa teki sen - kuuluisa matemaatikko ja biologi Karl Pearson.

Korrelaatiotyypit

Tärkeyden mukaan– erittäin merkittävä, merkittävä ja merkityksetön.

Erilaisia

mitä r on yhtä suuri

Erittäin merkittävä

r vastaa tilastollisen merkitsevyyden tasoa p<=0,01

Merkittävä

r vastaa p<=0,05

merkityksetön

r ei saavuta p>0,1

Negatiivinen(yhden muuttujan arvon lasku johtaa toisen tason nousuun: mitä enemmän fobioita henkilöllä on, sitä epätodennäköisemmin hän ottaa johtoaseman) ja positiivinen (jos yhden muuttujan nousu johtaa nousuun toisen tasolla: mitä hermostuneempi olet, sitä todennäköisemmin sairastut). Jos muuttujien välillä ei ole yhteyttä, niin tällaista korrelaatiota kutsutaan nollaksi.

Lineaarinen(kun yksi arvo kasvaa tai pienenee, toinen myös kasvaa tai pienenee) ja epälineaarinen (kun yhden arvon muuttuessa, toisen arvon muutoksen luonnetta ei voida kuvata lineaarisen suhteen avulla, silloin sovelletaan muita matemaattisia lakeja - polynomi, hyperbolinen suhteet).

Voimalla.

Kertoimet




Sen mukaan, mihin asteikkoon tutkittavat muuttujat kuuluvat, lasketaan erilaisia ​​korrelaatiokertoimia:

  1. Pearson-korrelaatiokerroin, pariittainen lineaarinen korrelaatiokerroin tai tuotemomenttikorrelaatio lasketaan muuttujille, joissa on mittausväli- ja määräasteikot.
  2. Spearmanin tai Kendallin rankkorrelaatiokerroin - kun vähintään yhdellä suureista on järjestysasteikko tai se ei ole normaalijakaumassa.
  3. Pisteen biserialinen korrelaatiokerroin (Fechner-merkkikorrelaatiokerroin) – jos toinen kahdesta suuresta on dikotominen.
  4. Neljän kentän korrelaatiokerroin (multiple rank correlation (concordance)) - jos kaksi muuttujaa ovat kaksijakoisia.

Pearson-kerroin viittaa parametrisiin korrelaatioindikaattoreihin, kaikki muut ovat ei-parametrisia.

Korrelaatiokertoimen arvo vaihtelee välillä -1 - +1. Täydellisellä positiivisella korrelaatiolla r = +1, täydellisellä negatiivisella korrelaatiolla r = -1.

Kaava ja laskelma





Esimerkkejä

On tarpeen määrittää kahden muuttujan välinen suhde: älyllisen kehityksen taso (testauksen mukaan) ja viivästysten määrä kuukaudessa (koulutuspäiväkirjan merkintöjen mukaan) koululaisten keskuudessa.

Alustavat tiedot on esitetty taulukossa:

IQ-tiedot (x)

Tiedot viivästysten määrästä (y)

Summa

1122

Keskiverto

112,2


Saadaksesi oikean tulkinnan saadusta indikaattorista on tarpeen analysoida korrelaatiokertoimen etumerkki (+ tai -) ja sen absoluuttinen arvo (modulo).

Korrelaatiokertoimen vahvuuden luokitustaulukon mukaisesti päätämme, että rxy = -0,827 on vahva negatiivinen korrelaatio. Myöhästyneiden koululaisten määrä on siis erittäin vahvasti riippuvainen heidän älyllisen kehityksensä tasosta. Voidaan sanoa, että korkean älykkyysosamäärän omaavat opiskelijat myöhästyvät tunneista harvemmin kuin matalan älykkyysosamäärän oppilaat.



Korrelaatiokerrointa voivat käyttää sekä tutkijat vahvistamaan tai kumoamaan oletuksen kahden suuren tai ilmiön riippuvuudesta ja mittaamaan sen vahvuutta ja merkitystä, että opiskelijat voivat tehdä empiiristä ja tilastollista tutkimusta eri aiheista. On muistettava, että tämä indikaattori ei ole ihanteellinen työkalu, se lasketaan vain lineaarisen suhteen vahvuuden mittaamiseen ja se on aina todennäköisyysarvo, jossa on tietty virhe.

Korrelaatioanalyysiä käytetään seuraavilla alueilla:

  • taloustiede;
  • astrofysiikka;
  • yhteiskuntatieteet (sosiologia, psykologia, pedagogiikka);
  • maatalouskemia;
  • metallurgia;
  • teollisuus (laadunvalvontaa varten);
  • hydrobiologia;
  • biometriset tiedot jne.

Syitä korrelaatioanalyysimenetelmän suosioon:

  1. Korrelaatiokertoimien laskennan suhteellinen yksinkertaisuus ei vaadi erityistä matemaattista koulutusta.
  2. Mahdollistaa tilastotieteen analyysin kohteena olevien massan satunnaismuuttujien välisten suhteiden laskemisen. Tässä suhteessa tämä menetelmä on yleistynyt tilastotutkimuksen alalla.

Toivon, että nyt pystyt erottamaan toiminnallisen suhteen korrelaatiosuhteesta ja tiedät, että kun kuulet televisiosta tai luet lehdistä korrelaatiosta, se tarkoittaa positiivista ja melko merkittävää keskinäistä riippuvuutta kahden ilmiön välillä.

Erilaiset merkit voivat liittyä toisiinsa.

Niiden välillä on kahdenlaisia ​​yhteyksiä:

  • toimiva;
  • korrelaatio.

Korrelaatio venäjäksi käännettynä on vain yhteys.
Korrelaatioyhteyden tapauksessa voidaan jäljittää yhden ominaisuuden useiden arvojen vastaavuus toisen ominaisuuden useisiin arvoihin. Esimerkkeinä voimme tarkastella vahvistettuja korrelaatioita:

  • lintujen, kuten haikaroiden, kurkien ja haikaroiden tassujen, kaulan ja nokan pituus;
  • kehon lämpötilan ja sykkeen indikaattorit.

Useimmissa biolääketieteellisissä prosesseissa tämän tyyppisen yhteyden olemassaolo on todistettu tilastollisesti.

Tilastolliset menetelmät mahdollistavat ominaisuuksien keskinäisen riippuvuuden olemassaolon toteamisen. Erikoislaskelmien käyttö tähän johtaa korrelaatiokertoimien (liitettävyyden mittareiden) muodostamiseen.

Tällaisia ​​laskelmia kutsutaan korrelaatioanalyysi. Se suoritetaan 2 muuttujan (satunnaismuuttujan) riippuvuuden vahvistamiseksi toisistaan, mikä ilmaistaan ​​korrelaatiokertoimella.

Korrelaatiomenetelmän avulla voit ratkaista useita ongelmia:

  • tunnistaa analysoitujen parametrien välisen suhteen olemassaolo;
  • tieto korrelaation olemassaolosta antaa meille mahdollisuuden ratkaista ennustusongelmia. Siten on olemassa todellinen mahdollisuus ennustaa parametrin käyttäytyminen toisen korreloivan parametrin käyttäytymisen analyysin perusteella;
  • luokittelun suorittaminen toisistaan ​​riippumattomien ominaisuuksien valintaan perustuen.

Muuttujat:

  • suhteessa järjestysasteikkoon lasketaan Spearman-kerroin;
  • liittyvät intervalliasteikkoon – Pearson-kerroin.

Nämä ovat yleisimmin käytettyjä parametreja, niiden lisäksi on muitakin.

Kertoimen arvo voidaan ilmaista joko positiivisena tai negatiivisena.

Ensimmäisessä tapauksessa toisen muuttujan arvon kasvaessa havaitaan toisen. Jos kerroin on negatiivinen, kuvio on päinvastainen.

Mihin korrelaatiokerroin on tarkoitettu?

Toisiinsa liittyvillä satunnaismuuttujilla voi olla täysin erilainen tämän yhteyden luonne. Se ei välttämättä ole toimiva tapaus, jossa määrien välinen suora suhde voidaan jäljittää. Useimmiten molempiin suureisiin vaikuttaa joukko erilaisia ​​tekijöitä, jos ne ovat yhteisiä molemmille suureille, havaitaan toisiinsa liittyvien kuvioiden muodostumista.

Tämä tarkoittaa, että tilastollisesti todistettu tosiasia suureiden välisen suhteen olemassaolosta ei vahvista, että havaittujen muutosten syy on todettu. Yleensä tutkija päättelee, että on olemassa kaksi toisiinsa liittyvää seurausta.

Korrelaatiokertoimen ominaisuudet

Tällä tilastollisella ominaisuudella on seuraavat ominaisuudet:

  • Kertoimen arvo vaihtelee välillä -1 - +1. Mitä lähempänä ääriarvoja, sitä vahvempi positiivinen tai negatiivinen suhde lineaaristen parametrien välillä on. Nolla-arvon tapauksessa puhumme ominaisuuksien välisen korrelaation puuttumisesta;
  • kertoimen positiivinen arvo ilmaisee, että jos yhden ominaisuuden arvo kasvaa, havaitaan toisen lisäystä (positiivinen korrelaatio);
  • negatiivinen arvo – jos yhden ominaisuuden arvo kasvaa, havaitaan toisen lasku (negatiivinen korrelaatio);
  • indikaattorin arvon lähestyminen ääripisteisiin (joko -1 tai +1) osoittaa erittäin vahvan lineaarisen suhteen olemassaolon;
  • ominaisuuden indikaattorit voivat muuttua kertoimen arvon pysyessä muuttumattomana;
  • korrelaatiokerroin on dimensioton suure;
  • korrelaation olemassaolo ei välttämättä vahvista syy-seuraussuhdetta.

Korrelaatiokertoimen arvot

Korrelaation vahvuutta voidaan luonnehtia turvautumalla Cheldockin asteikkoon, jossa tietty numeerinen arvo vastaa kvalitatiivista ominaisuutta.

Jos arvon kanssa on positiivinen korrelaatio:

  • 0-0,3 – korrelaatio on erittäin heikko;
  • 0,3-0,5 - heikko;
  • 0,5-0,7 - keskivahvuus;
  • 0,7-0,9 – korkea;
  • 0,9-1 – erittäin korkea korrelaatiovahvuus.

Asteikkoa voidaan käyttää myös negatiiviseen korrelaatioon. Tässä tapauksessa laadulliset ominaisuudet korvataan vastakkaisilla.

Voit käyttää yksinkertaistettua Cheldock-asteikkoa, joka erottaa vain 3 korrelaation vahvuuden asteikkoa:

  • erittäin vahva - indikaattorit ±0,7 - ±1;
  • keskiarvo - indikaattorit ±0,3 - ±0,699;
  • erittäin heikko - indikaattorit 0 - ±0,299.

Tämän tilastollisen indikaattorin avulla voidaan paitsi testata oletusta ominaisuuksien välisen lineaarisen suhteen olemassaolosta, myös määrittää sen vahvuus.

Korrelaatiokertoimen tyypit

Korrelaatiokertoimet voidaan luokitella etumerkin ja arvon mukaan:

  • positiivinen;
  • tyhjä;
  • negatiivinen.

Analysoiduista arvoista riippuen kerroin lasketaan:

  • Pearson;
  • Spearman;
  • Kendal;
  • Fechner merkkejä;
  • konkordanssi tai moniarvoinen korrelaatio.

Pearson-korrelaatiokerrointa käytetään määrittämään suoria suhteita muuttujien absoluuttisten arvojen välille. Tässä tapauksessa molempien muuttujasarjojen jakaumien tulisi lähestyä normaalia. Vertailtavien muuttujien tulee erota samassa määrässä vaihtelevia ominaisuuksia. Muuttujia edustavan asteikon on oltava intervalli- tai suhdeasteikko.

  • korrelaation vahvuuden määrittäminen tarkasti;
  • määrällisten ominaisuuksien vertailu.

Lineaarisen Pearson-korrelaatiokertoimen käyttämisessä on muutamia haittoja:

  • menetelmä on epävakaa numeeristen arvojen poikkeavuuksien tapauksessa;
  • Tällä menetelmällä on mahdollista määrittää korrelaation vahvuus vain lineaariselle suhteelle muun tyyppisille muuttujien keskinäisille suhteille, tulee käyttää regressioanalyysimenetelmiä.

Rankkorrelaatio määritetään Spearmanin menetelmällä, jonka avulla voidaan tilastollisesti tutkia ilmiöiden välistä suhdetta. Tämän kertoimen ansiosta lasketaan kahden kvantitatiivisesti ilmaistun ominaisuussarjan todellinen rinnakkaisuusaste ja arvioidaan myös tunnistetun liitoksen tiiviys.

  • ei vaadi korrelaatiovoiman arvon tarkkaa määritystä;
  • verratuilla indikaattoreilla on sekä kvantitatiivisia että attribuuttisia merkityksiä;
  • ominaisuussarjojen vertailu avoimiin arvomuunnelmiin.

Spearmanin menetelmä on ei-parametrinen analyysimenetelmä, joten ominaisuuden jakauman normaalia ei tarvitse tarkistaa. Lisäksi sen avulla voit vertailla eri asteikoilla ilmaistuja indikaattoreita. Esimerkiksi punasolujen määrän vertailu tietyssä veritilavuudessa (jatkuva asteikko) ja asiantuntija-arvio pisteinä (järjestysasteikko).

Menetelmän tehokkuuteen vaikuttaa negatiivisesti suuri ero vertailuarvojen välillä. Menetelmä ei myöskään ole tehokas tapauksissa, joissa mitatulle arvolle on ominaista arvojen epätasainen jakautuminen.

Vaiheittainen korrelaatiokertoimen laskenta Excelissä

Korrelaatiokertoimen laskeminen edellyttää useiden matemaattisten operaatioiden suorittamista peräkkäin.

Yllä oleva kaava Pearson-kertoimen laskemiseksi osoittaa, kuinka työläs tämä prosessi on, jos se tehdään manuaalisesti.
Excelin ominaisuuksien käyttö nopeuttaa kertoimen löytämistä merkittävästi.

Riittää, kun seuraat yksinkertaista toiminta-algoritmia:

  • perustietojen syöttäminen - x-arvojen sarake ja y-arvojen sarake;
  • valitse työkaluista ja avaa "Kaavat"-välilehti;
  • valitse avautuvasta välilehdestä "Lisää fx-toiminto";
  • valitse avautuvasta valintaikkunasta "Corel" -tilastofunktio, jonka avulla voit laskea korrelaatiokertoimen 2 tietojoukon välillä;
  • kirjoita avautuvaan ikkunaan tiedot: taulukko 1 - sarakkeen x arvoalue (tiedot on valittava), taulukko 2 - sarakkeen y arvoalue;
  • "ok"-näppäintä painetaan, kertoimen laskennan tulos näkyy "arvo"-rivillä;
  • johtopäätös korrelaation olemassaolosta kahden tietojoukon ja sen vahvuuden välillä.

Korrelaatiokerroin heijastaa kahden indikaattorin välisen suhteen astetta. Se saa aina arvon -1:stä 1:een. Jos kerroin sijaitsee noin 0, muuttujien välillä ei ole yhteyttä.

Jos arvo on lähellä yhtä (esim. 0,9:stä), havaittujen kohteiden välillä on vahva suora yhteys. Jos kerroin on lähellä alueen toista ääripistettä (-1), muuttujien välillä on vahva käänteinen suhde. Kun arvo on jossain välillä 0 - 1 tai 0 - -1, kyseessä on heikko yhteys (suora tai käänteinen). Tätä suhdetta ei yleensä oteta huomioon: uskotaan, että sitä ei ole olemassa.

Korrelaatiokertoimen laskenta Excelissä

Tarkastellaan esimerkin avulla korrelaatiokertoimen laskentamenetelmiä, muuttujien välisten suorien ja käänteisten suhteiden ominaisuuksia.

Indikaattorien x ja y arvot:

Y on riippumaton muuttuja, x on riippuvainen muuttuja. On tarpeen löytää niiden välisen yhteyden vahvuus (vahva/heikko) ja suunta (eteenpäin/käänteinen). Korrelaatiokertoimen kaava näyttää tältä:


Jotta se olisi helpompi ymmärtää, jaetaan se useisiin yksinkertaisiin osiin.

Muuttujien välille määräytyy vahva suora yhteys.

Sisäänrakennettu CORREL-toiminto välttää monimutkaiset laskelmat. Lasketaan parin korrelaatiokerroin Excelissä sen avulla. Kutsu toimintovelho. Löydämme tarvitsemamme. Funktioargumentit ovat joukko y-arvoja ja joukko x-arvoja:

Näytetään muuttujien arvot kaaviossa:


Vahva yhteys y:n ja x:n välillä on näkyvissä, koska viivat kulkevat lähes yhdensuuntaisesti toistensa kanssa. Suhde on suora: y kasvaa - x kasvaa, y laskee - x pienenee.



Parikorrelaatiokerroinmatriisi Excelissä

Korrelaatiomatriisi on rivien ja sarakkeiden leikkauspisteessä oleva taulukko, jonka vastaavien arvojen väliset korrelaatiokertoimet sijaitsevat. On järkevää rakentaa se useille muuttujille.

Excelin korrelaatiokertoimien matriisi muodostetaan "Data Analysis" -paketin "Korrelaatio"-työkalulla.


Y:n ja x1:n arvojen välillä havaittiin vahva suora yhteys. Välillä x1 ja x2 on voimakas takaisinkytkentä. Ei käytännössä ole yhteyttä sarakkeen x3 arvoihin.