05.03.2024

Paano makalkula ang koepisyent ng ugnayan. Mga koepisyent ng ugnayan. Paggamit ng Excel para Kalkulahin ang Mga Coefficient ng Correlation


Pansinin! Ang solusyon sa iyong partikular na problema ay magiging katulad ng halimbawang ito, kasama ang lahat ng mga talahanayan at mga tekstong nagpapaliwanag sa ibaba, ngunit isinasaalang-alang ang iyong paunang data...

Gawain:
Mayroong kaugnay na sample ng 26 na pares ng mga halaga (x k,y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Kinakailangan upang makalkula/mag-plot:
- koepisyent ng ugnayan;
- subukan ang hypothesis ng pagtitiwala ng mga random na variable X at Y, sa antas ng kahalagahan ng α = 0.05;
- linear regression equation coefficients;
- scatter diagram (correlation field) at regression line graph;

SOLUSYON:

1. Kalkulahin ang koepisyent ng ugnayan.

Ang correlation coefficient ay isang indicator ng mutual probabilistic influence ng dalawang random variables. Koepisyent ng ugnayan R maaaring kumuha ng mga halaga mula sa -1 dati +1 . Kung ang absolute value ay mas malapit sa 1 , kung gayon ito ay katibayan ng isang malakas na koneksyon sa pagitan ng mga dami, at kung mas malapit sa 0 - pagkatapos ito ay nagpapahiwatig ng mahinang koneksyon o kawalan nito. Kung ganap na halaga R katumbas ng isa, pagkatapos ay maaari nating pag-usapan ang isang functional na koneksyon sa pagitan ng mga dami, iyon ay, ang isang dami ay maaaring ipahayag sa pamamagitan ng isa pa gamit ang isang mathematical function.


Ang correlation coefficient ay maaaring kalkulahin gamit ang mga sumusunod na formula:
n
Σ
k = 1
(x k -M x) 2 , σ y 2 =
M x =
1
n
n
Σ
k = 1
xk, M y =

o sa pamamagitan ng formula

Rx,y =
M xy - M x M y
S x S y
(1.4), kung saan:
M x =
1
n
n
Σ
k = 1
xk, M y =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1.5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1.6)

Sa pagsasagawa, ang formula (1.4) ay mas madalas na ginagamit upang kalkulahin ang koepisyent ng ugnayan dahil ito ay nangangailangan ng mas kaunting pagkalkula. Gayunpaman, kung ang covariance ay dating kinakalkula cov(X,Y), kung gayon mas kumikita ang paggamit ng formula (1.1), dahil Bilang karagdagan sa mismong halaga ng covariance, maaari mo ring gamitin ang mga resulta ng mga intermediate na kalkulasyon.

1.1 Kalkulahin natin ang koepisyent ng ugnayan gamit ang formula (1.4), upang gawin ito, kinakalkula namin ang mga halaga ng x k 2, y k 2 at x k y k at ipasok ang mga ito sa Talahanayan 1.

Talahanayan 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Kalkulahin natin ang M x gamit ang formula (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25.20000 + 26.40000 + ... + 25.80000 = 669.500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25.750000

1.3. Kalkulahin natin ang M y sa katulad na paraan.

1.3.1. Idagdag natin ang lahat ng mga elemento nang sunud-sunod y k

y 1 + y 2 + … + y 26 = 30.80000 + 29.40000 + ... + 30.80000 = 793.000000

1.3.2. Hatiin ang resultang kabuuan sa bilang ng mga sample na elemento

793.00000 / 26 = 30.50000

M y = 30.500000

1.4. Sa katulad na paraan kinakalkula namin ang M xy.

1.4.1. Idagdag natin nang sunud-sunod ang lahat ng elemento ng ika-6 na hanay ng talahanayan 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Hatiin ang nagresultang kabuuan sa bilang ng mga elemento

20412.83000 / 26 = 785.10885

M xy = 785.108846

1.5. Kalkulahin natin ang halaga ng S x 2 gamit ang formula (1.6.).

1.5.1. Idagdag natin nang sunud-sunod ang lahat ng mga elemento ng ika-4 na hanay ng talahanayan 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Hatiin ang nagresultang kabuuan sa bilang ng mga elemento

17256.91000 / 26 = 663.72731

1.5.3. Ibawas ang parisukat ng M x mula sa huling numero upang makuha ang halaga para sa S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Kalkulahin natin ang halaga ng S y 2 gamit ang formula (1.6.).

1.6.1. Idagdag natin nang sunud-sunod ang lahat ng elemento ng ika-5 column ng table 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Hatiin ang nagresultang kabuuan sa bilang ng mga elemento

24191.84000 / 26 = 930.45538

1.6.3. Ibawas ang parisukat ng M y mula sa huling numero upang makuha ang halaga para sa S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Kalkulahin natin ang produkto ng mga dami ng S x 2 at S y 2.

S x 2 S y 2 = 0.66481 0.20538 = 0.136541

1.8. Kunin natin ang square root ng huling numero at kunin ang halaga S x S y.

S x S y = 0.36951

1.9. Kalkulahin natin ang halaga ng koepisyent ng ugnayan gamit ang formula (1.4.).

R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028

SAGOT: R x,y = -0.720279

2. Sinusuri namin ang kahalagahan ng koepisyent ng ugnayan (sinuri namin ang hypothesis ng pagtitiwala).

Dahil ang pagtatantya ng koepisyent ng ugnayan ay kinakalkula sa isang tiyak na sample, at samakatuwid ay maaaring lumihis mula sa halaga ng populasyon nito, kinakailangan upang subukan ang kahalagahan ng koepisyent ng ugnayan. Ginagawa ang pagsusuri gamit ang t-test:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Random na halaga t sumusunod sa t-distribution ng Estudyante at gamit ang t-distribution table kinakailangan upang mahanap ang kritikal na halaga ng criterion (t cr.α) sa isang ibinigay na antas ng kabuluhan α. Kung ang t na kinakalkula sa pamamagitan ng formula (2.1) sa absolute value ay lumalabas na mas mababa sa t cr.α , kung gayon walang dependence sa pagitan ng mga random na variable na X at Y. Kung hindi, ang pang-eksperimentong data ay hindi sumasalungat sa hypothesis tungkol sa pag-asa ng mga random na variable.


2.1. Kalkulahin natin ang halaga ng t-criterion gamit ang formula (2.1) at makuha ang:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Gamit ang t-distribution table, tinutukoy namin ang kritikal na halaga ng parameter na t cr.α

Ang nais na halaga ng tcr.α ay matatagpuan sa intersection ng row na tumutugma sa bilang ng mga degree ng kalayaan at ang column na tumutugma sa ibinigay na antas ng kahalagahan α.
Sa aming kaso, ang bilang ng mga antas ng kalayaan ay n - 2 = 26 - 2 = 24 at α = 0.05 , na tumutugma sa kritikal na halaga ng criterion t cr.α = 2.064 (tingnan ang talahanayan 2)

talahanayan 2 t-pamamahagi

Bilang ng antas ng kalayaan
(n - 2)
α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = 0.002 α = 0.001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Ihambing natin ang absolute value ng t-criterion at t cr.α

Ang ganap na halaga ng t-criterion ay hindi bababa sa kritikal na halaga t = 5.08680, t cr.α = 2.064, samakatuwid pang-eksperimentong data, na may posibilidad na 0.95(1 - α), huwag sumalungat sa hypothesis tungkol sa pag-asa ng mga random na variable X at Y.

3. Kalkulahin ang mga coefficient ng linear regression equation.

Ang isang linear regression equation ay isang equation ng isang tuwid na linya na tinatantya (humigit-kumulang na naglalarawan) ng ugnayan sa pagitan ng mga random na variable X at Y. Kung ipagpalagay natin na ang halaga ng X ay libre at ang Y ay nakasalalay sa X, kung gayon ang regression equation ay isusulat bilang sumusunod


Y = a + b X (3.1), kung saan:

b =Rx,y
σy
σx
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Ang koepisyent na kinakalkula gamit ang formula (3.2) b tinatawag na linear regression coefficient. Sa ilang mga mapagkukunan a ay tinatawag na constant regression coefficient at b ayon sa mga variable.

Ang mga error sa paghula sa Y para sa isang naibigay na halaga X ay kinakalkula gamit ang mga formula:

Tinatawag din ang quantity σ y/x (formula 3.4). natitirang standard deviation, inilalarawan nito ang pag-alis ng halagang Y mula sa linya ng regression na inilarawan ng equation (3.1) para sa isang nakapirming (ibinigay) na halaga ng X.

.
S y 2 / S x 2 = 0.20538 / 0.66481 = 0.30894. Kunin natin ang square root ng huling numero at makuha ang:
S y / S x = 0.55582

3.3 Kalkulahin natin ang koepisyent b ayon sa formula (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Kalkulahin natin ang koepisyent a ayon sa formula (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Tantyahin natin ang mga pagkakamali ng equation ng regression.

3.5.1 Ang pagkuha ng square root ng S y 2 ay nakukuha natin:

= 0.31437
3.5.4 Kalkulahin natin ang kamag-anak na error gamit ang formula (3.5)

δ y/x = (0.31437 / 30.50000)100% = 1.03073%

4. Bumubuo kami ng scatter diagram (correlation field) at isang regression line graph.

Ang scatterplot ay isang graphical na representasyon ng mga katumbas na pares (x k, y k) bilang mga punto sa isang eroplano, sa hugis-parihaba na coordinate na may X at Y axes. Ang correlation field ay isa sa mga graphical na representasyon ng isang kaugnay (pinares) na sample. Ang regression line graph ay naka-plot din sa parehong coordinate system. Ang mga kaliskis at panimulang punto sa mga palakol ay dapat na maingat na piliin upang matiyak na ang diagram ay malinaw hangga't maaari.

4.1. Hanapin ang pinakamababa at pinakamataas na elemento ng sample na X ay ang ika-18 at ika-15 na elemento, ayon sa pagkakabanggit, x min = 22.10000 at x max = 26.60000.

4.2. Nalaman namin na ang minimum at maximum na elemento ng sample Y ay ang ika-2 at ika-18 na elemento, ayon sa pagkakabanggit, y min = 29.40000 at y max = 31.60000.

4.3. Sa x-axis, pumili ng panimulang punto nang bahagya sa kaliwa ng puntong x 18 = 22.10000, at isang sukat na ang puntong x 15 = 26.60000 ay umaangkop sa axis at ang natitirang mga punto ay malinaw na nakikita.

4.4. Sa ordinate axis, pumili ng panimulang punto nang bahagya sa kaliwa ng punto y 2 = 29.40000, at tulad ng isang sukat na ang punto y 18 = 31.60000 ay umaangkop sa axis at ang natitirang mga punto ay malinaw na nakikilala.

4.5. Inilalagay namin ang mga halaga ng x k sa abscissa axis, at ang mga halaga ng y k sa ordinate axis.

4.6. Pinulot namin ang mga puntos (x 1, y 1), (x 2, y 2),…, (x 26, y 26) sa coordinate plane. Nakukuha namin ang scatter diagram (correlation field) na ipinapakita sa figure sa ibaba.

4.7. Gumuhit tayo ng linya ng regression.

Upang gawin ito, makakahanap tayo ng dalawang magkaibang mga punto na may mga coordinate (x r1, y r1) at (x r2, y r2) na kasiya-siyang equation (3.6), i-plot ang mga ito sa coordinate plane at gumuhit ng isang tuwid na linya sa pamamagitan ng mga ito. Bilang abscissa ng unang punto, kinukuha namin ang halaga x min = 22.10000. Ang pagpapalit ng halaga x min sa equation (3.6), makuha natin ang ordinate ng unang punto. Kaya, mayroon kaming isang punto na may mga coordinate (22.10000, 31.96127). Sa katulad na paraan, nakuha namin ang mga coordinate ng pangalawang punto, na inilalagay ang halaga x max = 26.60000 bilang abscissa. Ang pangalawang punto ay: (26.60000, 30.15970).

Ang linya ng regression ay ipinapakita sa figure sa ibaba na kulay pula

Pakitandaan na ang linya ng regression ay palaging dumadaan sa punto ng mga average na halaga ng X at Y, i.e. na may mga coordinate (M x , M y).

Ang layunin ng pagsusuri ng ugnayan ay upang matukoy ang isang pagtatantya ng lakas ng koneksyon sa pagitan ng mga random na variable (mga tampok) na nagpapakilala sa ilang tunay na proseso.
Mga problema sa pagsusuri ng ugnayan:
a) Pagsukat sa antas ng pagkakaugnay (closeness, strength, severity, intensity) ng dalawa o higit pang phenomena.
b) Pagpili ng mga salik na may pinakamahalagang epekto sa resultang katangian, batay sa pagsukat sa antas ng pagkakakonekta sa pagitan ng mga phenomena. Ang mga salik na makabuluhan sa aspetong ito ay ginagamit pa sa pagsusuri ng regression.
c) Pagtuklas ng mga hindi kilalang ugnayang sanhi.

Ang mga anyo ng pagpapakita ng mga relasyon ay magkakaiba. Ang pinakakaraniwang uri ay functional (kumpleto) at ugnayan (hindi kumpleto) koneksyon.
Kaugnayan nagpapakita ng sarili sa karaniwan para sa mga obserbasyon ng masa, kapag ang mga ibinigay na halaga ng dependent variable ay tumutugma sa isang tiyak na serye ng mga probabilistikong halaga ng independent variable. Ang relasyon ay tinatawag na ugnayan, kung ang bawat halaga ng katangian ng kadahilanan ay tumutugma sa isang mahusay na tinukoy na hindi random na halaga ng resultang katangian.
Ang isang visual na representasyon ng isang talahanayan ng ugnayan ay ang patlang ng ugnayan. Ito ay isang graph kung saan ang mga halaga ng X ay naka-plot sa abscissa axis, ang mga halaga ng Y ay naka-plot sa ordinate axis, at ang mga kumbinasyon ng X at Y ay ipinapakita ng mga tuldok. Sa pamamagitan ng lokasyon ng mga tuldok, maaaring hatulan ng isa ang presensya ng isang koneksyon.
Mga tagapagpahiwatig ng pagkakalapit ng koneksyon gawing posible na makilala ang pag-asa ng pagkakaiba-iba ng nagresultang katangian sa pagkakaiba-iba ng katangian ng kadahilanan.
Isang mas advanced na tagapagpahiwatig ng antas ng pagsisikip koneksyon ng ugnayan ay linear correlation coefficient. Kapag kinakalkula ang tagapagpahiwatig na ito, hindi lamang ang mga paglihis ng mga indibidwal na halaga ng isang katangian mula sa average ay isinasaalang-alang, kundi pati na rin ang napakalaki ng mga paglihis na ito.

Ang mga pangunahing tanong ng paksang ito ay ang mga equation ng relasyon ng regression sa pagitan ng epektibong katangian at ng paliwanag na variable, ang least squares na paraan para sa pagtatantya ng mga parameter ng regression model, pagsusuri sa kalidad ng resultang regression equation, pagbuo ng confidence interval para sa paghula ng mga halaga ng epektibong katangian gamit ang regression equation.

Halimbawa 2


Sistema ng mga normal na equation.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Para sa aming data, ang sistema ng mga equation ay may anyo
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Mula sa unang equation na ipinapahayag namin A at palitan sa pangalawang equation:
Nakukuha namin ang b = -3.46, a = 1379.33
Regression equation:
y = -3.46 x + 1379.33

2. Pagkalkula ng mga parameter ng equation ng regression.
Sample ibig sabihin.



Mga sample na pagkakaiba-iba:


Karaniwang lihis


1.1. Koepisyent ng ugnayan
Covariance.

Kinakalkula namin ang tagapagpahiwatig ng pagkakalapit ng koneksyon. Ang indicator na ito ay ang sample na linear correlation coefficient, na kinakalkula ng formula:

Ang linear correlation coefficient ay tumatagal ng mga halaga mula -1 hanggang +1.
Ang mga koneksyon sa pagitan ng mga katangian ay maaaring mahina at malakas (malapit). Ang kanilang mga pamantayan ay tinasa sa sukat ng Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Sa aming halimbawa, ang relasyon sa pagitan ng katangian Y at kadahilanan X ay mataas at kabaligtaran.
Bilang karagdagan, ang linear pair correlation coefficient ay maaaring matukoy sa pamamagitan ng regression coefficient b:

1.2. Regression equation(pagtatantya ng equation ng regression).

Ang linear regression equation ay y = -3.46 x + 1379.33

Ang coefficient b = -3.46 ay nagpapakita ng average na pagbabago sa epektibong indicator (sa mga yunit ng pagsukat y) na may pagtaas o pagbaba sa halaga ng factor x bawat yunit ng pagsukat nito. Sa halimbawang ito, na may pagtaas ng 1 yunit, ang y ay bumababa ng -3.46 sa karaniwan.
Ang koepisyent a = 1379.33 ay pormal na nagpapakita ng hinulaang antas ng y, ngunit kung ang x = 0 ay malapit sa mga sample na halaga.
Ngunit kung ang x=0 ay malayo sa mga sample na halaga ng x, kung gayon ang isang literal na interpretasyon ay maaaring humantong sa hindi tamang mga resulta, at kahit na ang linya ng regression ay naglalarawan ng mga naobserbahang mga halaga ng sample nang medyo tumpak, walang garantiya na ito ay magkakaroon din. maging ang kaso kapag extrapolating kaliwa o kanan.
Sa pamamagitan ng pagpapalit ng naaangkop na mga halaga ng x sa equation ng regression, matutukoy natin ang nakahanay (hinulaang) mga halaga ng tagapagpahiwatig ng pagganap y(x) para sa bawat pagmamasid.
Tinutukoy ng relasyon sa pagitan ng y at x ang tanda ng regression coefficient b (kung > 0 - direktang relasyon, kung hindi - kabaligtaran). Sa aming halimbawa, ang koneksyon ay baligtad.
1.3. Koepisyent ng pagkalastiko.
Hindi ipinapayong gumamit ng mga coefficient ng regression (sa halimbawa b) upang direktang masuri ang impluwensya ng mga salik sa isang resultang katangian kung may pagkakaiba sa mga yunit ng pagsukat ng resultang tagapagpahiwatig na y at ang katangian ng salik na x.
Para sa mga layuning ito, kinakalkula ang mga coefficient ng elasticity at mga beta coefficient.
Ang average na elasticity coefficient E ay nagpapakita sa kung anong porsyento sa average ang magiging resulta sa pinagsama-samang sa mula sa average na halaga nito kapag nagbabago ang salik x ng 1% ng average na halaga nito.
Ang koepisyent ng pagkalastiko ay matatagpuan sa pamamagitan ng formula:


Ang elasticity coefficient ay mas mababa sa 1. Samakatuwid, kung ang X ay magbabago ng 1%, ang Y ay magbabago ng mas mababa sa 1%. Sa madaling salita, ang impluwensya ng X sa Y ay hindi makabuluhan.
Beta koepisyent nagpapakita sa pamamagitan ng kung anong bahagi ng halaga ng karaniwang paglihis nito ang average na halaga ng nagreresultang katangian ay magbabago kapag ang katangian ng salik ay nagbabago sa halaga ng karaniwang paglihis nito na may halaga ng natitirang mga independiyenteng variable na naayos sa isang pare-parehong antas:

Yung. ang pagtaas sa x ng standard deviation S x ay hahantong sa pagbaba sa average na halaga ng Y ng 0.74 standard deviation S y .
1.4. Error sa pagtatantya.
Suriin natin ang kalidad ng equation ng regression gamit ang error ng absolute approximation. Average na error sa pagtatantya - average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:


Dahil ang error ay mas mababa sa 15%, ang equation na ito ay maaaring gamitin bilang regression.
Pagsusuri ng pagkakaiba-iba.
Ang layunin ng pagsusuri ng pagkakaiba-iba ay upang suriin ang pagkakaiba-iba ng umaasang baryabol:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
saan
∑(y i - y cp) 2 - kabuuang kabuuan ng mga squared deviations;
∑(y(x) - y cp) 2 - ang kabuuan ng mga squared deviations dahil sa regression (“ipinaliwanag” o “factorial”);
∑(y - y(x)) 2 - natitirang kabuuan ng mga squared deviations.
Teoretikal na ugnayang ugnayan para sa isang linear na koneksyon ay katumbas ng correlation coefficient r xy .
Para sa anumang anyo ng pag-asa, ang higpit ng koneksyon ay tinutukoy gamit maramihang koepisyent ng ugnayan:

Ang koepisyent na ito ay pangkalahatan, dahil sinasalamin nito ang pagkakalapit ng koneksyon at ang katumpakan ng modelo, at maaari ding gamitin para sa anumang anyo ng koneksyon sa pagitan ng mga variable. Kapag gumagawa ng one-factor correlation model, ang multiple correlation coefficient ay katumbas ng pares correlation coefficient r xy.
1.6. Koepisyent ng determinasyon.
Ang parisukat ng (multiple) correlation coefficient ay tinatawag na coefficient of determination, na nagpapakita ng proporsyon ng variation sa resultang attribute na ipinaliwanag ng variation sa factor attribute.
Kadalasan, kapag binibigyang kahulugan ang koepisyent ng pagpapasiya, ito ay ipinahayag bilang isang porsyento.
R2 = -0.742 = 0.5413
mga. sa 54.13% ng mga kaso, ang mga pagbabago sa x ay humahantong sa mga pagbabago sa y. Sa madaling salita, ang katumpakan ng pagpili ng equation ng regression ay karaniwan. Ang natitirang 45.87% ng pagbabago sa Y ay ipinaliwanag ng mga salik na hindi isinasaalang-alang sa modelo.

Bibliograpiya

  1. Econometrics: Teksbuk / Ed. I.I. Eliseeva. – M.: Pananalapi at Istatistika, 2001, p. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometrics. Beginner course. Pagtuturo. – 2nd ed., rev. – M.: Delo, 1998, p. 17..42.
  3. Workshop sa econometrics: Proc. allowance / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko at iba pa; Ed. I.I. Eliseeva. – M.: Pananalapi at Istatistika, 2001, p. 5..48.

06.06.2018 16 235 0 Igor

Sikolohiya at Lipunan

Lahat ng bagay sa mundo ay magkakaugnay. Ang bawat tao, sa antas ng intuwisyon, ay sumusubok na makahanap ng mga relasyon sa pagitan ng mga phenomena upang maimpluwensyahan at makontrol ang mga ito. Ang konsepto na sumasalamin sa relasyong ito ay tinatawag na ugnayan. Ano ang ibig sabihin nito sa mga simpleng salita?

Nilalaman:

Konsepto ng ugnayan

Kaugnayan (mula sa Latin na "correlatio" - ratio, relasyon)– isang termino sa matematika na nangangahulugang isang sukatan ng istatistikal na probabilistikong pagdepende sa pagitan ng mga random na dami (mga variable).



Halimbawa: Tingnan natin ang dalawang uri ng relasyon:

  1. Una- isang panulat sa kamay ng isang tao. Saang direksyon gumagalaw ang kamay, sa direksyong iyon papunta ang panulat. Kung ang kamay ay nakapahinga, kung gayon ang panulat ay hindi magsusulat. Kung ang isang tao ay pinindot ito ng kaunti, ang marka sa papel ay magiging mas mayaman. Ang ganitong uri ng relasyon ay sumasalamin sa isang mahigpit na pag-asa at hindi ugnayan. Ang relasyon na ito ay functional.
  2. Pangalawang uri– ang kaugnayan sa pagitan ng antas ng edukasyon ng isang tao at pagbabasa ng panitikan. Hindi alam nang maaga kung aling mga tao ang mas nagbabasa: ang mga mayroon o walang mas mataas na edukasyon. Ang koneksyon na ito ay random o stochastic; ito ay pinag-aaralan ng statistical science, na eksklusibong tumatalakay sa mass phenomena. Kung ginagawang posible ng kalkulasyon ng istatistika na patunayan ang ugnayan sa pagitan ng antas ng edukasyon at pagbabasa ng literatura, gagawin nitong posible na gumawa ng anumang mga pagtataya at mahulaan ang probabilistikong paglitaw ng mga kaganapan. Sa halimbawang ito, na may mataas na antas ng posibilidad, maaaring pagtalunan na ang mga taong may mas mataas na edukasyon, ang mga mas edukado, ay nagbabasa ng higit pang mga libro. Ngunit dahil ang koneksyon sa pagitan ng mga parameter na ito ay hindi gumagana, maaari tayong magkamali. Maaari mong palaging kalkulahin ang posibilidad ng naturang error, na magiging malinaw na maliit at tinatawag na antas ng statistical significance (p).

Ang mga halimbawa ng mga ugnayan sa pagitan ng mga natural na phenomena ay: ang food chain sa kalikasan, ang katawan ng tao, na binubuo ng mga organ system na magkakaugnay at gumagana bilang isang solong kabuuan.

Araw-araw ay nakatagpo tayo ng mga ugnayan sa pang-araw-araw na buhay: sa pagitan ng panahon at isang magandang kalagayan, ang tamang pagbabalangkas ng mga layunin at ang kanilang nakamit, isang positibong saloobin at swerte, isang pakiramdam ng kaligayahan at kagalingan sa pananalapi. Ngunit naghahanap kami ng mga koneksyon, hindi umaasa sa mga kalkulasyon ng matematika, ngunit sa mga alamat, intuwisyon, pamahiin, at walang ginagawang haka-haka. Ang mga phenomena na ito ay napakahirap isalin sa wikang matematika, ipahayag sa mga numero, at sukatin. Ito ay isa pang bagay kapag sinusuri natin ang mga phenomena na maaaring kalkulahin at ipakita sa anyo ng mga numero. Sa kasong ito, maaari nating tukuyin ang ugnayan gamit ang koepisyent ng ugnayan (r), na sumasalamin sa lakas, antas, lapit at direksyon ng ugnayan sa pagitan ng mga random na variable.

Malakas na ugnayan sa pagitan ng mga random na variable- katibayan ng pagkakaroon ng ilang istatistikal na koneksyon partikular sa pagitan ng mga phenomena na ito, ngunit ang koneksyon na ito ay hindi maaaring ilipat sa parehong phenomena, ngunit para sa ibang sitwasyon. Kadalasan, ang mga mananaliksik, na nakakuha ng isang makabuluhang ugnayan sa pagitan ng dalawang mga variable sa kanilang mga kalkulasyon, batay sa pagiging simple ng pagsusuri ng ugnayan, ay gumagawa ng mga maling intuitive na pagpapalagay tungkol sa pagkakaroon ng sanhi-at-epekto na mga relasyon sa pagitan ng mga katangian, na nakakalimutan na ang koepisyent ng ugnayan ay probabilistiko sa kalikasan .

Halimbawa: ang bilang ng mga taong nasugatan sa panahon ng malamig na kondisyon at ang bilang ng mga aksidente sa kalsada sa mga sasakyang de-motor. Ang mga dami na ito ay magkakaugnay sa isa't isa, kahit na sila ay ganap na hindi magkakaugnay, ngunit mayroon lamang isang koneksyon sa karaniwang sanhi ng mga random na kaganapang ito - itim na yelo. Kung ang pagsusuri ay hindi nagbubunyag ng isang ugnayan sa pagitan ng mga phenomena, ito ay hindi pa katibayan ng kawalan ng pag-asa sa pagitan ng mga ito, na maaaring kumplikadong nonlinear at hindi ipinahayag ng mga kalkulasyon ng ugnayan.




Ang unang nagpakilala ng konsepto ng ugnayan sa siyentipikong paggamit ay ang Pranses paleontologist na si Georges Cuvier. Noong ika-18 siglo, ihinuha niya ang batas ng ugnayan ng mga bahagi at organo ng mga nabubuhay na organismo, salamat sa kung saan naging posible na ibalik ang hitsura ng isang buong fossil na nilalang, hayop, mula sa mga natagpuang bahagi ng katawan (nananatili). Sa mga istatistika, ang terminong ugnayan ay unang ginamit noong 1886 ng isang Ingles na siyentipiko Francis Galton. Ngunit hindi niya makuha ang eksaktong formula para sa pagkalkula ng koepisyent ng ugnayan, ngunit ginawa ito ng kanyang mag-aaral - sikat na mathematician at biologist na si Karl Pearson.

Mga uri ng ugnayan

Sa kahalagahan– lubos na makabuluhan, makabuluhan at hindi gaanong mahalaga.

Mga uri

ano ang katumbas ng

Lubos na makabuluhan

r ay tumutugma sa antas ng istatistikal na kahalagahan p<=0,01

Makabuluhan

r ay tumutugma sa p<=0,05

Hindi gaanong mahalaga

r ay hindi umabot sa p>0.1

Negatibo(ang pagbaba sa halaga ng isang variable ay humahantong sa isang pagtaas sa antas ng isa pa: mas maraming phobia ang isang tao, mas maliit ang posibilidad na siya ay sakupin ang isang posisyon sa pamumuno) at positibo (kung ang pagtaas sa isang variable ay humantong sa isang pagtaas sa antas ng iba: kung mas kinakabahan ka, mas malamang na magkasakit ka). Kung walang koneksyon sa pagitan ng mga variable, kung gayon ang gayong ugnayan ay tinatawag na zero.

Linear(kapag ang isang halaga ay tumaas o bumaba, ang pangalawa ay tumataas o bumababa din) at nonlinear (kapag ang isang halaga ay nagbago, ang likas na katangian ng pagbabago sa pangalawa ay hindi maaaring ilarawan gamit ang isang linear na relasyon, pagkatapos ay ang iba pang mga mathematical na batas ay inilalapat - polynomial, hyperbolic mga relasyon).

Sa pamamagitan ng lakas.

Odds




Depende sa kung aling sukat nabibilang ang mga variable na pinag-aaralan, kinakalkula ang iba't ibang uri ng coefficient ng ugnayan:

  1. Ang Pearson correlation coefficient, pairwise linear correlation coefficient, o product moment correlation ay kinakalkula para sa mga variable na may interval at scale measurement scale.
  2. Spearman o Kendall rank correlation coefficient - kapag kahit isa sa mga dami ay may ordinal na sukat o hindi normal na ipinamamahagi.
  3. Point biserial correlation coefficient (Fechner sign correlation coefficient) – kung ang isa sa dalawang dami ay dichotomous.
  4. Four-field correlation coefficient (multiple rank correlation (concordance) coefficient – ​​kung ang dalawang variable ay dichotomous.

Ang Pearson coefficient ay tumutukoy sa parametric correlation indicator, lahat ng iba ay non-parametric.

Ang halaga ng koepisyent ng ugnayan ay mula -1 hanggang +1. Na may kumpletong positibong ugnayan, r = +1, na may kumpletong negatibong ugnayan, r = -1.

Formula at pagkalkula





Mga halimbawa

Kinakailangan upang matukoy ang kaugnayan sa pagitan ng dalawang variable: ang antas ng intelektwal na pag-unlad (ayon sa pagsubok) at ang bilang ng mga pagkaantala bawat buwan (ayon sa mga entry sa journal na pang-edukasyon) sa mga mag-aaral.

Ang paunang data ay ipinakita sa talahanayan:

IQ data (x)

Data sa bilang ng mga pagkaantala (y)

Sum

1122

Katamtaman

112,2


Upang makapagbigay ng tamang interpretasyon ng nakuhang tagapagpahiwatig, kinakailangang pag-aralan ang tanda ng koepisyent ng ugnayan (+ o -) at ang ganap na halaga nito (modulo).

Alinsunod sa talahanayan ng pag-uuri ng koepisyent ng ugnayan sa pamamagitan ng lakas, napagpasyahan namin na ang rxy = -0.827 ay isang malakas na negatibong ugnayan. Kaya, ang bilang ng mga mag-aaral na nahuhuli ay may napakalakas na pag-asa sa kanilang antas ng intelektwal na pag-unlad. Masasabing ang mga mag-aaral na may mataas na antas ng IQ ay nahuhuli sa mga klase nang mas madalas kaysa sa mga mag-aaral na may mababang antas ng IQ.



Ang koepisyent ng ugnayan ay maaaring gamitin kapwa ng mga siyentipiko upang kumpirmahin o pabulaanan ang pagpapalagay ng pag-asa ng dalawang dami o phenomena at sukatin ang lakas at kahalagahan nito, at ng mga mag-aaral upang magsagawa ng empirical at istatistikal na pananaliksik sa iba't ibang paksa. Dapat tandaan na ang tagapagpahiwatig na ito ay hindi isang perpektong tool; kinakalkula lamang ito upang masukat ang lakas ng isang linear na relasyon at palaging magiging isang probabilistikong halaga na may isang tiyak na error.

Ang pagsusuri ng ugnayan ay ginagamit sa mga sumusunod na lugar:

  • agham pang-ekonomiya;
  • astrophysics;
  • agham panlipunan (sosyolohiya, sikolohiya, pedagogy);
  • agrochemistry;
  • metalurhiya;
  • industriya (para sa kontrol sa kalidad);
  • hydrobiology;
  • biometrics, atbp.

Mga dahilan para sa katanyagan ng paraan ng pagsusuri ng ugnayan:

  1. Ang kamag-anak na pagiging simple ng pagkalkula ng mga coefficient ng ugnayan ay hindi nangangailangan ng espesyal na edukasyon sa matematika.
  2. Binibigyang-daan kang kalkulahin ang mga ugnayan sa pagitan ng mga mass random na variable, na siyang paksa ng pagsusuri sa statistical science. Kaugnay nito, ang pamamaraang ito ay naging laganap sa larangan ng istatistikal na pananaliksik.

Umaasa ako na ngayon ay magagawa mong makilala ang isang functional na relasyon mula sa isang correlational na relasyon at malalaman mo na kapag narinig mo sa telebisyon o nabasa sa press ang tungkol sa ugnayan, nangangahulugan ito ng isang positibo at medyo makabuluhang pagtutulungan sa pagitan ng dalawang phenomena.

Ang iba't ibang mga palatandaan ay maaaring nauugnay sa bawat isa.

Mayroong 2 uri ng koneksyon sa pagitan nila:

  • functional;
  • ugnayan.

Kaugnayan isinalin sa Russian ay walang iba kundi isang koneksyon.
Sa kaso ng isang koneksyon sa ugnayan, ang pagsusulatan ng ilang mga halaga ng isang katangian sa ilang mga halaga ng isa pang katangian ay maaaring masubaybayan. Bilang mga halimbawa, maaari nating isaalang-alang ang mga naitatag na ugnayan sa pagitan ng:

  • ang haba ng mga paa, leeg, at tuka ng mga ibon tulad ng mga tagak, crane, at tagak;
  • mga tagapagpahiwatig ng temperatura ng katawan at rate ng puso.

Para sa karamihan ng mga biomedical na proseso, ang pagkakaroon ng ganitong uri ng koneksyon ay napatunayan sa istatistika.

Ginagawang posible ng mga pamamaraan ng istatistika na maitaguyod ang katotohanan ng pagkakaroon ng pagkakaisa ng mga katangian. Ang paggamit ng mga espesyal na kalkulasyon para dito ay humahantong sa pagtatatag ng mga coefficient ng ugnayan (mga sukat ng pagkakakonekta).

Ang ganitong mga kalkulasyon ay tinatawag pagsusuri ng ugnayan. Isinasagawa ito upang kumpirmahin ang pag-asa ng 2 variable (random variable) sa bawat isa, na ipinahayag ng koepisyent ng ugnayan.

Ang paggamit ng paraan ng ugnayan ay nagbibigay-daan sa iyo upang malutas ang ilang mga problema:

  • tukuyin ang pagkakaroon ng isang relasyon sa pagitan ng nasuri na mga parameter;
  • Ang kaalaman sa pagkakaroon ng isang ugnayan ay nagbibigay-daan sa amin upang malutas ang mga problema sa pagtataya. Kaya, mayroong isang tunay na pagkakataon upang mahulaan ang pag-uugali ng isang parameter batay sa isang pagsusuri ng pag-uugali ng isa pang nakakaugnay na parameter;
  • pagsasagawa ng pag-uuri batay sa pagpili ng mga tampok na independyente sa bawat isa.

Para sa mga variable:

  • na may kaugnayan sa ordinal scale, ang Spearman coefficient ay kinakalkula;
  • nauugnay sa sukat ng agwat - koepisyent ng Pearson.

Ito ang mga pinakakaraniwang ginagamit na mga parameter, may iba pa bukod sa kanila.

Ang halaga ng koepisyent ay maaaring ipahayag alinman sa positibo o negatibo.

Sa unang kaso, habang ang halaga ng isang variable ay tumataas, ang isang pagtaas sa pangalawa ay sinusunod. Kung ang koepisyent ay negatibo, ang pattern ay baligtad.

Para saan ang correlation coefficient?

Ang mga random na variable na nauugnay sa isa't isa ay maaaring may ganap na magkakaibang mga katangian ng koneksyon na ito. Ito ay hindi kinakailangang maging functional, ang kaso kapag ang isang direktang relasyon sa pagitan ng mga dami ay maaaring masubaybayan. Kadalasan, ang parehong mga dami ay apektado ng isang buong hanay ng iba't ibang mga kadahilanan; sa mga kaso kung saan ang mga ito ay karaniwan sa parehong mga dami, ang pagbuo ng mga kaugnay na pattern ay sinusunod.

Nangangahulugan ito na ang istatistikal na napatunayan na katotohanan ng pagkakaroon ng isang relasyon sa pagitan ng mga dami ay hindi nagpapatunay na ang sanhi ng mga naobserbahang pagbabago ay naitatag. Bilang isang tuntunin, ang mananaliksik ay naghihinuha na mayroong dalawang magkakaugnay na kahihinatnan.

Mga katangian ng koepisyent ng ugnayan

Ang istatistikal na katangiang ito ay may mga sumusunod na katangian:

  • ang halaga ng koepisyent ay mula -1 hanggang +1. Kung mas malapit sa mga extreme value, mas malakas ang positibo o negatibong relasyon sa pagitan ng mga linear na parameter. Sa kaso ng isang zero na halaga, pinag-uusapan natin ang kawalan ng ugnayan sa pagitan ng mga katangian;
  • ang isang positibong halaga ng koepisyent ay nagpapahiwatig na kung ang halaga ng isang katangian ay tumaas, ang isang pagtaas sa pangalawa ay sinusunod (positibong ugnayan);
  • negatibong halaga - sa kaso ng pagtaas sa halaga ng isang katangian, ang pagbawas sa pangalawa ay sinusunod (negatibong ugnayan);
  • ang diskarte ng halaga ng tagapagpahiwatig sa matinding mga punto (alinman sa -1 o +1) ay nagpapahiwatig ng pagkakaroon ng isang napakalakas na linear na relasyon;
  • ang mga tagapagpahiwatig ng isang katangian ay maaaring magbago habang ang halaga ng koepisyent ay nananatiling hindi nagbabago;
  • ang koepisyent ng ugnayan ay isang walang sukat na dami;
  • ang pagkakaroon ng isang ugnayan ay hindi kinakailangang kumpirmahin ang isang sanhi-at-bunga na relasyon.

Mga halaga ng koepisyent ng ugnayan

Ang lakas ng ugnayan ay maaaring mailalarawan sa pamamagitan ng paggamit sa sukat ng Cheldock, kung saan ang isang tiyak na halaga ng numero ay tumutugma sa isang katangiang husay.

Sa kaso ng isang positibong ugnayan sa halaga:

  • 0-0.3 - ang ugnayan ay napakahina;
  • 0.3-0.5 - mahina;
  • 0.5-0.7 - katamtamang lakas;
  • 0.7-0.9 - mataas;
  • 0.9-1 – napakataas na lakas ng ugnayan.

Ang iskala ay maaari ding gamitin para sa negatibong ugnayan. Sa kasong ito, ang mga katangian ng husay ay pinalitan ng mga kabaligtaran.

Maaari mong gamitin ang pinasimpleng sukat ng Cheldock, na nakikilala lamang ang 3 gradasyon ng lakas ng ugnayan:

  • napakalakas - mga tagapagpahiwatig ±0.7 - ±1;
  • average - mga tagapagpahiwatig ±0.3 - ±0.699;
  • napakahina - mga tagapagpahiwatig 0 - ± 0.299.

Ang istatistikal na tagapagpahiwatig na ito ay nagbibigay-daan hindi lamang upang subukan ang pagpapalagay ng pagkakaroon ng isang linear na relasyon sa pagitan ng mga katangian, ngunit din upang maitaguyod ang lakas nito.

Mga uri ng koepisyent ng ugnayan

Ang mga coefficient ng ugnayan ay maaaring uriin ayon sa tanda at halaga:

  • positibo;
  • wala;
  • negatibo.

Depende sa nasuri na mga halaga, ang koepisyent ay kinakalkula:

  • Pearson;
  • Spearman;
  • Kendal;
  • Mga palatandaan ng Fechner;
  • concordance o multiple rank correlation.

Ang Pearson correlation coefficient ay ginagamit upang magtatag ng mga direktang ugnayan sa pagitan ng mga ganap na halaga ng mga variable. Sa kasong ito, ang mga distribusyon ng parehong serye ng mga variable ay dapat na lumalapit sa normal. Ang mga inihambing na variable ay dapat na magkaiba sa parehong bilang ng iba't ibang katangian. Ang sukat na kumakatawan sa mga variable ay dapat na isang sukat ng pagitan o ratio.

  • tumpak na pagtatatag ng lakas ng ugnayan;
  • paghahambing ng mga quantitative na katangian.

Mayroong ilang mga disadvantages sa paggamit ng linear Pearson correlation coefficient:

  • ang pamamaraan ay hindi matatag sa kaso ng mga outlier ng mga numerical na halaga;
  • Gamit ang pamamaraang ito, posibleng matukoy ang lakas ng ugnayan para lamang sa isang linear na relasyon; para sa iba pang mga uri ng mutual na relasyon ng mga variable, dapat gamitin ang mga pamamaraan ng pagsusuri ng regression.

Ang ugnayan ng ranggo ay tinutukoy ng pamamaraang Spearman, na nagpapahintulot sa isa na pag-aralan sa istatistika ang kaugnayan sa pagitan ng mga phenomena. Salamat sa koepisyent na ito, ang aktwal na antas ng parallelism ng dalawang quantitatively expressed na serye ng mga katangian ay kinakalkula, at ang higpit ng natukoy na koneksyon ay tinasa din.

  • hindi nangangailangan ng tumpak na pagpapasiya ng halaga ng puwersa ng ugnayan;
  • ang mga inihambing na tagapagpahiwatig ay may parehong quantitative at attributive na kahulugan;
  • paghahambing ng mga serye ng mga katangian sa mga bukas na variant ng mga halaga.

Ang pamamaraan ng Spearman ay isang paraan ng pagsusuri na hindi parametric, kaya hindi na kailangang suriin ang normalidad ng distribusyon ng isang katangian. Bilang karagdagan, pinapayagan ka nitong ihambing ang mga tagapagpahiwatig na ipinahayag sa iba't ibang mga antas. Halimbawa, paghahambing ng bilang ng mga pulang selula ng dugo sa isang tiyak na dami ng dugo (continuous scale) at expert assessment na ipinahayag sa mga puntos (ordinal scale).

Ang pagiging epektibo ng pamamaraan ay negatibong naapektuhan ng isang malaking pagkakaiba sa pagitan ng mga halaga ng inihambing na dami. Ang pamamaraan ay hindi rin epektibo sa mga kaso kung saan ang nasusukat na halaga ay nailalarawan sa pamamagitan ng hindi pantay na pamamahagi ng mga halaga.

Hakbang-hakbang na pagkalkula ng koepisyent ng ugnayan sa Excel

Ang pagkalkula ng koepisyent ng ugnayan ay nagsasangkot ng sunud-sunod na pagsasagawa ng isang bilang ng mga operasyong matematikal.

Ang formula sa itaas para sa pagkalkula ng koepisyent ng Pearson ay nagpapakita kung gaano labor-intensive ang prosesong ito kung gagawin nang manu-mano.
Ang paggamit ng mga kakayahan ng Excel ay nagpapabilis ng proseso ng paghahanap ng koepisyent nang malaki.

Ito ay sapat na upang sundin ang isang simpleng algorithm ng mga aksyon:

  • pagpasok ng pangunahing impormasyon - isang haligi ng mga halaga ng x at isang haligi ng mga halaga ng y;
  • sa mga tool, piliin at buksan ang tab na "Mga Formula";
  • sa tab na bubukas, piliin ang "Insert fx function";
  • sa dialog box na bubukas, piliin ang "Corel" statistical function, na nagbibigay-daan sa iyong kalkulahin ang correlation coefficient sa pagitan ng 2 data set;
  • ang window na bubukas, ipasok ang data: array 1 - hanay ng mga halaga ng column x (dapat piliin ang data), array 2 - hanay ng mga halaga ng column y;
  • ang "ok" na key ay pinindot, ang resulta ng pagkalkula ng koepisyent ay lilitaw sa linya ng "halaga";
  • konklusyon tungkol sa pagkakaroon ng ugnayan sa pagitan ng 2 set ng data at lakas nito.

Ang koepisyent ng ugnayan ay sumasalamin sa antas ng ugnayan sa pagitan ng dalawang tagapagpahiwatig. Ito ay palaging tumatagal ng isang halaga mula -1 hanggang 1. Kung ang koepisyent ay matatagpuan sa paligid ng 0, pagkatapos ay walang koneksyon sa pagitan ng mga variable.

Kung ang halaga ay malapit sa isa (mula sa 0.9, halimbawa), mayroong isang malakas na direktang ugnayan sa pagitan ng mga naobserbahang bagay. Kung ang koepisyent ay malapit sa iba pang matinding punto ng hanay (-1), kung gayon mayroong isang malakas na kabaligtaran na ugnayan sa pagitan ng mga variable. Kapag ang halaga ay nasa pagitan ng 0 hanggang 1 o 0 hanggang -1, ang pinag-uusapan natin ay ang mahinang koneksyon (direkta o baligtad). Ang relasyon na ito ay karaniwang hindi isinasaalang-alang: pinaniniwalaan na hindi ito umiiral.

Pagkalkula ng koepisyent ng ugnayan sa Excel

Tingnan natin ang isang halimbawa ng mga pamamaraan para sa pagkalkula ng koepisyent ng ugnayan, mga tampok ng direkta at kabaligtaran na mga relasyon sa pagitan ng mga variable.

Mga halaga ng mga tagapagpahiwatig x at y:

Ang Y ay isang independent variable, ang x ay isang dependent variable. Kinakailangang hanapin ang lakas (malakas/mahina) at direksyon (pasulong/baligtad) ng koneksyon sa pagitan nila. Ang formula ng correlation coefficient ay ganito:


Para mas madaling maunawaan, hatiin natin ito sa ilang simpleng elemento.

Ang isang malakas na direktang relasyon ay tinutukoy sa pagitan ng mga variable.

Ang built-in na CORREL function ay umiiwas sa mga kumplikadong kalkulasyon. Kalkulahin natin ang coefficient ng correlation ng pares sa Excel gamit ito. Tawagan ang function wizard. Nahanap namin ang tama. Ang mga argumento ng function ay isang hanay ng mga halaga ng y at isang hanay ng mga halaga ng x:

Ipakita natin ang mga halaga ng mga variable sa graph:


Ang isang malakas na koneksyon sa pagitan ng y at x ay nakikita, dahil ang mga linya ay tumatakbo halos parallel sa bawat isa. Direkta ang relasyon: y tumataas - x tumataas, y bumababa - x bumababa.



Ipares ang correlation coefficient matrix sa Excel

Ang correlation matrix ay isang talahanayan sa intersection ng mga hilera at haligi kung saan matatagpuan ang mga coefficient ng ugnayan sa pagitan ng mga kaukulang halaga. Makatuwirang itayo ito para sa ilang mga variable.

Ang matrix ng correlation coefficients sa Excel ay binuo gamit ang tool na "Correlation" mula sa package na "Data Analysis".


Ang isang malakas na direktang relasyon ay natagpuan sa pagitan ng mga halaga ng y at x1. Mayroong malakas na feedback sa pagitan ng x1 at x2. Halos walang koneksyon sa mga halaga sa column x3.