05.03.2024

Πώς να υπολογίσετε τον συντελεστή συσχέτισης. Συντελεστές συσχέτισης. Χρήση του Excel για τον υπολογισμό των συντελεστών συσχέτισης


Ειδοποίηση!Η λύση στο συγκεκριμένο πρόβλημά σας θα μοιάζει με αυτό το παράδειγμα, συμπεριλαμβανομένων όλων των πινάκων και των επεξηγηματικών κειμένων παρακάτω, αλλά λαμβάνοντας υπόψη τα αρχικά σας δεδομένα...

Εργο:
Υπάρχει ένα σχετικό δείγμα 26 ζευγών τιμών (x k,y k):

κ 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

κ 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

κ 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Απαιτείται για τον υπολογισμό/οικόπεδο:
- συντελεστής συσχέτισης;
- ελέγξτε την υπόθεση της εξάρτησης των τυχαίων μεταβλητών X και Y, σε επίπεδο σημαντικότητας α = 0,05.
- συντελεστές εξίσωσης γραμμικής παλινδρόμησης.
- διάγραμμα διασποράς (πεδίο συσχέτισης) και γραμμικό γράφημα παλινδρόμησης.

ΛΥΣΗ:

1. Υπολογίστε τον συντελεστή συσχέτισης.

Ο συντελεστής συσχέτισης είναι ένας δείκτης της αμοιβαίας πιθανολογικής επιρροής δύο τυχαίων μεταβλητών. Συντελεστής συσχέτισης Rμπορεί να πάρει τιμές από -1 πριν +1 . Αν η απόλυτη τιμή είναι πιο κοντά στο 1 , τότε αυτό είναι απόδειξη μιας ισχυρής σύνδεσης μεταξύ των ποσοτήτων, και αν είναι πιο κοντά σε 0 - τότε αυτό δείχνει μια αδύναμη σύνδεση ή την απουσία της. Αν απόλυτη τιμή Rισούται με ένα, τότε μπορούμε να μιλήσουμε για μια συναρτητική σύνδεση μεταξύ των ποσοτήτων, δηλαδή, μια ποσότητα μπορεί να εκφραστεί μέσω μιας άλλης χρησιμοποιώντας μια μαθηματική συνάρτηση.


Ο συντελεστής συσχέτισης μπορεί να υπολογιστεί χρησιμοποιώντας τους ακόλουθους τύπους:
n
Σ
k = 1
(x k -M x) 2, σ y 2 =
Μ x =
1
n
n
Σ
k = 1
xk, Μ υ =

ή με φόρμουλα

Rx,y =
M xy - M x M y
S x S y
(1.4), όπου:
Μ x =
1
n
n
Σ
k = 1
xk, Μ υ =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, Σ και 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

Στην πράξη, ο τύπος (1.4) χρησιμοποιείται συχνότερα για τον υπολογισμό του συντελεστή συσχέτισης επειδή απαιτεί λιγότερους υπολογισμούς. Ωστόσο, εάν η συνδιακύμανση είχε υπολογιστεί προηγουμένως cov(X,Y), τότε είναι πιο κερδοφόρο να χρησιμοποιήσετε τον τύπο (1.1), επειδή Εκτός από την ίδια την τιμή συνδιακύμανσης, μπορείτε επίσης να χρησιμοποιήσετε τα αποτελέσματα των ενδιάμεσων υπολογισμών.

1.1 Ας υπολογίσουμε τον συντελεστή συσχέτισης χρησιμοποιώντας τον τύπο (1.4), για να το κάνουμε αυτό, υπολογίζουμε τις τιμές των x k 2, y k 2 και x k y k και τις εισάγουμε στον Πίνακα 1.

Τραπέζι 1


κ
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Ας υπολογίσουμε το M x χρησιμοποιώντας τον τύπο (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Ας υπολογίσουμε το M y με παρόμοιο τρόπο.

1.3.1. Ας προσθέσουμε όλα τα στοιχεία διαδοχικά y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων του δείγματος

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Με παρόμοιο τρόπο υπολογίζουμε το M xy.

1.4.1. Ας προσθέσουμε διαδοχικά όλα τα στοιχεία της 6ης στήλης του πίνακα 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Ας υπολογίσουμε την τιμή του S x 2 χρησιμοποιώντας τον τύπο (1.6.).

1.5.1. Ας προσθέσουμε διαδοχικά όλα τα στοιχεία της 4ης στήλης του πίνακα 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων

17256.91000 / 26 = 663.72731

1.5.3. Αφαιρέστε το τετράγωνο του M x από τον τελευταίο αριθμό για να λάβετε την τιμή για το S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Ας υπολογίσουμε την τιμή του S y 2 χρησιμοποιώντας τον τύπο (1.6.).

1.6.1. Ας προσθέσουμε διαδοχικά όλα τα στοιχεία της 5ης στήλης του πίνακα 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων

24191.84000 / 26 = 930.45538

1.6.3. Αφαιρέστε το τετράγωνο του M y από τον τελευταίο αριθμό για να λάβετε την τιμή του S y 2

Σ και 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Ας υπολογίσουμε το γινόμενο των μεγεθών S x 2 και S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Ας πάρουμε την τετραγωνική ρίζα του τελευταίου αριθμού και πάρουμε την τιμή S x S y.

S x S y = 0,36951

1.9. Ας υπολογίσουμε την τιμή του συντελεστή συσχέτισης χρησιμοποιώντας τον τύπο (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ΑΠΑΝΤΗΣΗ: R x,y = -0,720279

2. Ελέγχουμε τη σημασία του συντελεστή συσχέτισης (ελέγχουμε την υπόθεση της εξάρτησης).

Επειδή η εκτίμηση του συντελεστή συσχέτισης υπολογίζεται σε ένα πεπερασμένο δείγμα και επομένως μπορεί να αποκλίνει από την τιμή του πληθυσμού του, είναι απαραίτητο να ελεγχθεί η σημασία του συντελεστή συσχέτισης. Ο έλεγχος γίνεται χρησιμοποιώντας το t-test:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Τυχαία τιμή tακολουθεί την κατανομή t του Student και χρησιμοποιώντας τον πίνακα κατανομής t είναι απαραίτητο να βρεθεί η κρίσιμη τιμή του κριτηρίου (t cr.α) σε ένα δεδομένο επίπεδο σημασίας α. Εάν το t υπολογισμένο με τον τύπο (2.1) σε απόλυτη τιμή αποδειχθεί μικρότερο από t cr.α, τότε δεν υπάρχει εξάρτηση μεταξύ των τυχαίων μεταβλητών X και Y. Διαφορετικά, τα πειραματικά δεδομένα δεν έρχονται σε αντίθεση με την υπόθεση για την εξάρτηση των τυχαίων μεταβλητών.


2.1. Ας υπολογίσουμε την τιμή του κριτηρίου t χρησιμοποιώντας τον τύπο (2.1) και λάβουμε:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Χρησιμοποιώντας τον πίνακα κατανομής t, προσδιορίζουμε την κρίσιμη τιμή της παραμέτρου t cr.α

Η επιθυμητή τιμή του tcr.α βρίσκεται στην τομή της σειράς που αντιστοιχεί στον αριθμό των βαθμών ελευθερίας και της στήλης που αντιστοιχεί στο δεδομένο επίπεδο σημασίας α.
Στην περίπτωσή μας, ο αριθμός των βαθμών ελευθερίας είναι n - 2 = 26 - 2 = 24 και α = 0.05 , που αντιστοιχεί στην κρίσιμη τιμή του κριτηρίου t cr.α = 2.064 (βλέπε πίνακα 2)

πίνακας 2 t-κατανομή

Αριθμός βαθμών ελευθερίας
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Ας συγκρίνουμε την απόλυτη τιμή του κριτηρίου t και του t cr.α

Η απόλυτη τιμή του κριτηρίου t δεν είναι μικρότερη από την κρίσιμη τιμή t = 5,08680, t cr.α = 2,064, επομένως πειραματικά δεδομένα, με πιθανότητα 0,95(1 - α), δεν έρχονται σε αντίθεση με την υπόθεσηαπό την εξάρτηση των τυχαίων μεταβλητών X και Y.

3. Να υπολογίσετε τους συντελεστές της εξίσωσης γραμμικής παλινδρόμησης.

Μια γραμμική εξίσωση παλινδρόμησης είναι μια εξίσωση μιας ευθείας γραμμής που προσεγγίζει (περιγράφει κατά προσέγγιση) τη σχέση μεταξύ των τυχαίων μεταβλητών X και Y. Αν υποθέσουμε ότι η τιμή X είναι ελεύθερη και το Y εξαρτάται από το X, τότε η εξίσωση παλινδρόμησης θα γραφεί ως ακολουθεί


Y = a + b X (3.1), όπου:

β =Rx,y
σy
σx
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3,3)

Ο συντελεστής που υπολογίστηκε με τον τύπο (3.2) σιπου ονομάζεται συντελεστής γραμμικής παλινδρόμησης. Σε ορισμένες πηγές έναονομάζεται σταθερός συντελεστής παλινδρόμησης και σισύμφωνα με τις μεταβλητές.

Τα σφάλματα στην πρόβλεψη του Y για μια δεδομένη τιμή X υπολογίζονται χρησιμοποιώντας τους τύπους:

Λέγεται και η ποσότητα σ y/x (τύπος 3.4). υπολειπόμενη τυπική απόκλιση, χαρακτηρίζει την απομάκρυνση της τιμής Y από τη γραμμή παλινδρόμησης που περιγράφεται από την εξίσωση (3.1) για μια σταθερή (δεδομένη) τιμή του X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Ας πάρουμε την τετραγωνική ρίζα του τελευταίου αριθμού και πάρουμε:
S y / S x = 0,55582

3.3 Ας υπολογίσουμε τον συντελεστή βσύμφωνα με τον τύπο (3.2)

σι = -0.72028 0.55582 = -0.40035

3.4 Ας υπολογίσουμε τον συντελεστή ασύμφωνα με τον τύπο (3.3)

ένα = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Ας υπολογίσουμε τα σφάλματα της εξίσωσης παλινδρόμησης.

3.5.1 Παίρνοντας την τετραγωνική ρίζα του S y 2 παίρνουμε:

= 0.31437
3.5.4 Ας υπολογίσουμε το σχετικό σφάλμα χρησιμοποιώντας τον τύπο (3.5)

δ y/x = (0,31437 / 30,50000)100% = 1,03073%

4. Κατασκευάζουμε ένα διάγραμμα διασποράς (πεδίο συσχέτισης) και ένα γραμμικό γράφημα παλινδρόμησης.

Το scatterplot είναι μια γραφική αναπαράσταση των αντίστοιχων ζευγών (x k, y k) ως σημεία σε ένα επίπεδο, σε ορθογώνιες συντεταγμένες με τους άξονες X και Y Το πεδίο συσχέτισης είναι μια από τις γραφικές αναπαραστάσεις ενός σχετικού (ζευγοποιημένου) δείγματος. Το γράφημα γραμμών παλινδρόμησης απεικονίζεται επίσης στο ίδιο σύστημα συντεταγμένων. Οι κλίμακες και τα σημεία εκκίνησης στους άξονες πρέπει να επιλέγονται προσεκτικά για να διασφαλιστεί ότι το διάγραμμα είναι όσο το δυνατόν πιο σαφές.

4.1. Βρείτε το ελάχιστο και μέγιστο στοιχείο του δείγματος X είναι το 18ο και 15ο στοιχείο, αντίστοιχα, x min = 22,10000 και x max = 26,60000.

4.2. Βρίσκουμε το ελάχιστο και το μέγιστο στοιχείο του δείγματος Y είναι το 2ο και 18ο στοιχείο, αντίστοιχα, y min = 29,40000 και y max = 31,60000.

4.3. Στον άξονα x, επιλέξτε ένα σημείο εκκίνησης ελαφρώς προς τα αριστερά του σημείου x 18 = 22,10000 και τέτοια κλίμακα ώστε το σημείο x 15 = 26,60000 να ταιριάζει στον άξονα και τα υπόλοιπα σημεία να είναι ευδιάκριτα.

4.4. Στον άξονα τεταγμένων, επιλέξτε ένα σημείο εκκίνησης ελαφρώς προς τα αριστερά του σημείου y 2 = 29,40000 και τέτοια κλίμακα ώστε το σημείο y 18 = 31,60000 να ταιριάζει στον άξονα και τα υπόλοιπα σημεία να διακρίνονται καθαρά.

4.5. Τοποθετούμε τιμές x k στον άξονα της τετμημένης και τιμές y k στον άξονα τεταγμένων.

4.6. Σχεδιάζουμε τα σημεία (x 1, y 1), (x 2, y 2),…, (x 26, y 26) στο επίπεδο συντεταγμένων. Παίρνουμε το διάγραμμα διασποράς (πεδίο συσχέτισης) που φαίνεται στο παρακάτω σχήμα.

4.7. Ας χαράξουμε μια γραμμή παλινδρόμησης.

Για να γίνει αυτό, θα βρούμε δύο διαφορετικά σημεία με συντεταγμένες (x r1, y r1) και (x r2, y r2) που ικανοποιούν την εξίσωση (3.6), θα τα σχεδιάσουμε στο επίπεδο συντεταγμένων και θα σχεδιάσουμε μια ευθεία γραμμή μέσα από αυτά. Ως τετμημένη του πρώτου σημείου παίρνουμε την τιμή x min = 22,10000. Αντικαθιστώντας την τιμή x min στην εξίσωση (3.6), παίρνουμε την τεταγμένη του πρώτου σημείου. Έτσι, έχουμε ένα σημείο με συντεταγμένες (22.10000, 31.96127). Με παρόμοιο τρόπο, λαμβάνουμε τις συντεταγμένες του δεύτερου σημείου, βάζοντας ως τετμημένη την τιμή x max = 26,60000. Το δεύτερο σημείο θα είναι: (26.60000, 30.15970).

Η γραμμή παλινδρόμησης φαίνεται στο παρακάτω σχήμα με κόκκινο χρώμα

Σημειώστε ότι η γραμμή παλινδρόμησης διέρχεται πάντα από το σημείο των μέσων τιμών των X και Y, δηλ. με συντεταγμένες (M x , M y).

Ο σκοπός της ανάλυσης συσχέτισηςείναι ο προσδιορισμός μιας εκτίμησης της ισχύος της σύνδεσης μεταξύ τυχαίων μεταβλητών (χαρακτηριστικών) που χαρακτηρίζουν κάποια πραγματική διαδικασία.
Προβλήματα ανάλυσης συσχέτισης:
α) Μέτρηση του βαθμού συνοχής (εγγύτητα, δύναμη, σοβαρότητα, ένταση) δύο ή περισσότερων φαινομένων.
β) Επιλογή παραγόντων που έχουν τον πιο σημαντικό αντίκτυπο στο χαρακτηριστικό που προκύπτει, με βάση τη μέτρηση του βαθμού συνδεσιμότητας μεταξύ των φαινομένων. Παράγοντες που είναι σημαντικοί από αυτή την άποψη χρησιμοποιούνται περαιτέρω στην ανάλυση παλινδρόμησης.
γ) Ανίχνευση άγνωστων αιτιακών σχέσεων.

Οι μορφές εκδήλωσης των σχέσεων είναι πολύ διαφορετικές. Οι πιο συνηθισμένοι τύποι είναι οι λειτουργικοί (πλήρης) και συσχέτιση (ημιτελής) σύνδεση.
Συσχέτισηεκδηλώνεται κατά μέσο όρο για παρατηρήσεις μάζας, όταν οι δεδομένες τιμές της εξαρτημένης μεταβλητής αντιστοιχούν σε μια συγκεκριμένη σειρά πιθανολογικών τιμών της ανεξάρτητης μεταβλητής. Η σχέση ονομάζεται συσχέτιση, εάν κάθε τιμή του χαρακτηριστικού παράγοντα αντιστοιχεί σε μια καλά καθορισμένη μη τυχαία τιμή του προκύπτοντος χαρακτηριστικού.
Μια οπτική αναπαράσταση ενός πίνακα συσχέτισης είναι το πεδίο συσχέτισης. Είναι ένα γράφημα όπου οι τιμές X απεικονίζονται στον άξονα της τετμημένης, οι τιμές Y απεικονίζονται στον άξονα τεταγμένων και οι συνδυασμοί των X και Y εμφανίζονται με κουκκίδες Από τη θέση των κουκκίδων, μπορεί κανείς να κρίνει την παρουσία μιας σύνδεσης.
Δείκτες εγγύτητας σύνδεσηςκαθιστούν δυνατό τον χαρακτηρισμό της εξάρτησης της παραλλαγής του χαρακτηριστικού που προκύπτει από την παραλλαγή του χαρακτηριστικού του παράγοντα.
Ένας πιο προηγμένος δείκτης του βαθμού συνωστισμού σύνδεση συσχέτισηςείναι γραμμικός συντελεστής συσχέτισης. Κατά τον υπολογισμό αυτού του δείκτη, λαμβάνονται υπόψη όχι μόνο οι αποκλίσεις των μεμονωμένων τιμών ενός χαρακτηριστικού από τον μέσο όρο, αλλά και το ίδιο το μέγεθος αυτών των αποκλίσεων.

Τα βασικά ερωτήματα αυτού του θέματος είναι οι εξισώσεις της σχέσης παλινδρόμησης μεταξύ του ενεργού χαρακτηριστικού και της επεξηγηματικής μεταβλητής, η μέθοδος των ελαχίστων τετραγώνων για την εκτίμηση των παραμέτρων του μοντέλου παλινδρόμησης, η ανάλυση της ποιότητας της εξίσωσης παλινδρόμησης που προκύπτει, η κατασκευή διαστημάτων εμπιστοσύνης για την πρόβλεψη της τιμές του ενεργού χαρακτηριστικού χρησιμοποιώντας την εξίσωση παλινδρόμησης.

Παράδειγμα 2


Σύστημα κανονικών εξισώσεων.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Για τα δεδομένα μας, το σύστημα των εξισώσεων έχει τη μορφή
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Από την πρώτη εξίσωση εκφράζουμε ΕΝΑκαι αντικαθιστούμε στη δεύτερη εξίσωση:
Παίρνουμε b = -3,46, a = 1379,33
Εξίσωση παλινδρόμησης:
y = -3,46 x + 1379,33

2. Υπολογισμός παραμέτρων εξίσωσης παλινδρόμησης.
Δείγμα μέσα.



Δείγματα διακυμάνσεων:


Τυπική απόκλιση


1.1. Συντελεστής συσχέτισης
Συνδιακύμανση.

Υπολογίζουμε τον δείκτη εγγύτητας σύνδεσης. Αυτός ο δείκτης είναι ο δειγματοληπτικός συντελεστής γραμμικής συσχέτισης, ο οποίος υπολογίζεται από τον τύπο:

Ο συντελεστής γραμμικής συσχέτισης παίρνει τιμές από –1 έως +1.
Οι συνδέσεις μεταξύ των χαρακτηριστικών μπορεί να είναι αδύναμες και ισχυρές (στενές). Τα κριτήριά τους αξιολογούνται στην κλίμακα Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Στο παράδειγμά μας, η σχέση μεταξύ του χαρακτηριστικού Υ και του παράγοντα Χ είναι υψηλή και αντίστροφη.
Επιπλέον, ο συντελεστής συσχέτισης γραμμικού ζεύγους μπορεί να προσδιοριστεί μέσω του συντελεστή παλινδρόμησης b:

1.2. Εξίσωση παλινδρόμησης(εκτίμηση εξίσωσης παλινδρόμησης).

Η εξίσωση γραμμικής παλινδρόμησης είναι y = -3,46 x + 1379,33

Ο συντελεστής b = -3,46 δείχνει τη μέση μεταβολή του ενεργού δείκτη (σε μονάδες μέτρησης y) με αύξηση ή μείωση της τιμής του συντελεστή x ανά μονάδα μέτρησής του. Σε αυτό το παράδειγμα, με αύξηση 1 μονάδας, το y μειώνεται κατά -3,46 κατά μέσο όρο.
Ο συντελεστής a = 1379,33 δείχνει τυπικά το προβλεπόμενο επίπεδο του y, αλλά μόνο εάν το x = 0 είναι κοντά στις τιμές του δείγματος.
Αλλά αν το x=0 απέχει πολύ από τις τιμές του δείγματος του x, τότε μια κυριολεκτική ερμηνεία μπορεί να οδηγήσει σε λανθασμένα αποτελέσματα, και ακόμη κι αν η γραμμή παλινδρόμησης περιγράφει τις παρατηρούμενες τιμές του δείγματος με αρκετά ακρίβεια, δεν υπάρχει καμία εγγύηση ότι αυτό θα συμβαίνει όταν γίνεται παρέκταση αριστερά ή δεξιά.
Αντικαθιστώντας τις κατάλληλες τιμές x στην εξίσωση παλινδρόμησης, μπορούμε να προσδιορίσουμε τις ευθυγραμμισμένες (προβλεπόμενες) τιμές του δείκτη απόδοσης y(x) για κάθε παρατήρηση.
Η σχέση μεταξύ y και x καθορίζει το πρόσημο του συντελεστή παλινδρόμησης b (αν > 0 - άμεση σχέση, διαφορετικά - αντίστροφη). Στο παράδειγμά μας, η σύνδεση είναι αντίστροφη.
1.3. Συντελεστής ελαστικότητας.
Δεν συνιστάται η χρήση συντελεστών παλινδρόμησης (στο παράδειγμα β) για την άμεση αξιολόγηση της επίδρασης παραγόντων σε ένα προκύπτον χαρακτηριστικό εάν υπάρχει διαφορά στις μονάδες μέτρησης του προκύπτοντος δείκτη y και του χαρακτηριστικού του παράγοντα x.
Για τους σκοπούς αυτούς, υπολογίζονται οι συντελεστές ελαστικότητας και οι συντελεστές βήτα.
Ο μέσος συντελεστής ελαστικότητας Ε δείχνει σε ποιο ποσοστό κατά μέσο όρο θα αλλάξει το αποτέλεσμα στο σύνολο στοαπό τη μέση τιμή του όταν αλλάζει ο παράγοντας Χκατά 1% της μέσης αξίας του.
Ο συντελεστής ελαστικότητας βρίσκεται με τον τύπο:


Ο συντελεστής ελαστικότητας είναι μικρότερος από 1. Επομένως, εάν το Χ αλλάξει κατά 1%, το Y θα αλλάξει λιγότερο από 1%. Με άλλα λόγια, η επίδραση του Χ στο Υ δεν είναι σημαντική.
Συντελεστής βήταδείχνει με ποιο μέρος της τιμής της τυπικής απόκλισης θα αλλάξει η μέση τιμή του προκύπτοντος χαρακτηριστικού όταν το χαρακτηριστικό του παράγοντα αλλάζει κατά την τιμή της τυπικής του απόκλισης με την τιμή των υπόλοιπων ανεξάρτητων μεταβλητών σταθερή σε σταθερό επίπεδο:

Εκείνοι. μια αύξηση του x κατά την τυπική απόκλιση S x θα οδηγήσει σε μείωση της μέσης τιμής του Y κατά 0,74 τυπική απόκλιση S y .
1.4. Σφάλμα προσέγγισης.
Ας αξιολογήσουμε την ποιότητα της εξίσωσης παλινδρόμησης χρησιμοποιώντας το σφάλμα απόλυτης προσέγγισης. Μέσο σφάλμα προσέγγισης - μέση απόκλιση των υπολογισμένων τιμών από τις πραγματικές:


Επειδή το σφάλμα είναι μικρότερο από 15%, αυτή η εξίσωση μπορεί να χρησιμοποιηθεί ως παλινδρόμηση.
Ανάλυση της διακύμανσης.
Ο σκοπός της ανάλυσης διασποράς είναι να αναλύσει τη διακύμανση της εξαρτημένης μεταβλητής:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Οπου
∑(y i - y cp) 2 - συνολικό άθροισμα τετραγωνικών αποκλίσεων.
∑(y(x) - y cp) 2 - το άθροισμα των τετραγώνων αποκλίσεων λόγω παλινδρόμησης ("εξήγηση" ή "παραγοντική").
∑(y - y(x)) 2 - υπολειπόμενο άθροισμα τετραγωνικών αποκλίσεων.
Θεωρητική σχέση συσχέτισηςγια μια γραμμική σύνδεση ισούται με τον συντελεστή συσχέτισης r xy .
Για οποιαδήποτε μορφή εξάρτησης, η στεγανότητα της σύνδεσης προσδιορίζεται χρησιμοποιώντας πολλαπλός συντελεστής συσχέτισης:

Αυτός ο συντελεστής είναι καθολικός, καθώς αντικατοπτρίζει την εγγύτητα της σχέσης και την ακρίβεια του μοντέλου, και μπορεί επίσης να χρησιμοποιηθεί για οποιαδήποτε μορφή σύνδεσης μεταξύ μεταβλητών. Κατά την κατασκευή ενός μοντέλου συσχέτισης ενός παράγοντα, ο πολλαπλός συντελεστής συσχέτισης είναι ίσος με τον συντελεστή συσχέτισης ζεύγους r xy.
1.6. Συντελεστής προσδιορισμού.
Το τετράγωνο του (πολλαπλού) συντελεστή συσχέτισης ονομάζεται συντελεστής προσδιορισμού, ο οποίος δείχνει την αναλογία διακύμανσης στο προκύπτον χαρακτηριστικό που εξηγείται από τη μεταβολή στο χαρακτηριστικό παράγοντα.
Τις περισσότερες φορές, κατά την ερμηνεία του συντελεστή προσδιορισμού, εκφράζεται ως ποσοστό.
R2 = -0,742 = 0,5413
εκείνοι. στο 54,13% των περιπτώσεων, οι αλλαγές στο x οδηγούν σε αλλαγές στο y. Με άλλα λόγια, η ακρίβεια επιλογής της εξίσωσης παλινδρόμησης είναι μέση. Το υπόλοιπο 45,87% της αλλαγής στο Y εξηγείται από παράγοντες που δεν λαμβάνονται υπόψη στο μοντέλο.

Βιβλιογραφία

  1. Οικονομετρία: Σχολικό βιβλίο / Εκδ. Ι.Ι. Ελισέεβα. – Μ.: Οικονομικά και Στατιστική, 2001, σελ. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Οικονομετρία. Μάθημα για αρχάριους. Φροντιστήριο. – 2η έκδ., αναθ. – Μ.: Delo, 1998, σελ. 17..42.
  3. Εργαστήριο οικονομετρίας: Proc. επίδομα / Ι.Ι. Eliseeva, S.V. Kurysheva, N.M. Gordeenko και άλλοι. Εκδ. Ι.Ι. Ελισέεβα. – Μ.: Οικονομικά και Στατιστική, 2001, σελ. 5..48.

06.06.2018 16 235 0 Ιγκόρ

Ψυχολογία και Κοινωνία

Τα πάντα στον κόσμο είναι αλληλένδετα. Κάθε άτομο, στο επίπεδο της διαίσθησης, προσπαθεί να βρει σχέσεις μεταξύ φαινομένων για να μπορέσει να τα επηρεάσει και να τα ελέγξει. Η έννοια που αντικατοπτρίζει αυτή τη σχέση ονομάζεται συσχέτιση. Τι σημαίνει με απλά λόγια;

Περιεχόμενο:

Έννοια της συσχέτισης

Συσχέτιση (από το λατινικό "correlation" - αναλογία, σχέση)– ένας μαθηματικός όρος που σημαίνει μέτρο στατιστικής πιθανολογικής εξάρτησης μεταξύ τυχαίων μεγεθών (μεταβλητών).



Παράδειγμα:Ας πάρουμε δύο τύπους σχέσεων:

  1. Πρώτα- ένα στυλό στο χέρι ενός ατόμου. Προς ποια κατεύθυνση κινείται το χέρι, προς αυτήν την κατεύθυνση πηγαίνει το στυλό. Εάν το χέρι είναι σε ηρεμία, τότε το στυλό δεν θα γράψει. Αν κάποιος το πιέσει λίγο πιο δυνατά, το σημάδι στο χαρτί θα είναι πιο πλούσιο. Αυτός ο τύπος σχέσης αντανακλά μια αυστηρή εξάρτηση και δεν είναι συσχετιστικός. Αυτή η σχέση είναι λειτουργική.
  2. Δεύτερος τύπος– η σχέση μεταξύ του επιπέδου εκπαίδευσης ενός ατόμου και της ανάγνωσης λογοτεχνίας. Δεν είναι γνωστό εκ των προτέρων ποιοι άνθρωποι διαβάζουν περισσότερα: εκείνοι με ή χωρίς τριτοβάθμια εκπαίδευση. Αυτή η σύνδεση είναι τυχαία ή στοχαστική, μελετάται από τη στατιστική επιστήμη, η οποία ασχολείται αποκλειστικά με μαζικά φαινόμενα. Εάν ένας στατιστικός υπολογισμός καθιστά δυνατή την απόδειξη της συσχέτισης μεταξύ του επιπέδου εκπαίδευσης και της ανάγνωσης λογοτεχνίας, τότε αυτό θα καταστήσει δυνατή την πραγματοποίηση οποιωνδήποτε προβλέψεων και την πρόβλεψη της πιθανολογικής εμφάνισης γεγονότων. Σε αυτό το παράδειγμα, με υψηλό βαθμό πιθανότητας, μπορεί να υποστηριχθεί ότι τα άτομα με ανώτερη εκπαίδευση, όσοι είναι πιο μορφωμένα, διαβάζουν περισσότερα βιβλία. Αλλά επειδή η σύνδεση μεταξύ αυτών των παραμέτρων δεν είναι λειτουργική, μπορεί να κάνουμε λάθος. Μπορείτε πάντα να υπολογίσετε την πιθανότητα ενός τέτοιου σφάλματος, η οποία θα είναι σαφώς μικρή και ονομάζεται επίπεδο στατιστικής σημασίας (p).

Παραδείγματα σχέσεων μεταξύ φυσικών φαινομένων είναι:η τροφική αλυσίδα στη φύση, το ανθρώπινο σώμα, που αποτελείται από συστήματα οργάνων που συνδέονται μεταξύ τους και λειτουργούν ως ενιαίο σύνολο.

Καθημερινά συναντάμε συσχετισμούς στην καθημερινότητα: μεταξύ καιρού και καλής διάθεσης, σωστής διαμόρφωσης στόχων και επίτευξής τους, θετική στάση και τύχη, αίσθημα ευτυχίας και οικονομικής ευημερίας. Αλλά αναζητούμε συνδέσεις, βασιζόμενοι όχι σε μαθηματικούς υπολογισμούς, αλλά σε μύθους, διαίσθηση, δεισιδαιμονίες και άσκοπες εικασίες. Αυτά τα φαινόμενα είναι πολύ δύσκολο να μεταφραστούν σε μαθηματική γλώσσα, να εκφραστούν με αριθμούς και να μετρηθούν. Είναι άλλο θέμα όταν αναλύουμε φαινόμενα που μπορούν να υπολογιστούν και να παρουσιαστούν με τη μορφή αριθμών. Σε αυτή την περίπτωση, μπορούμε να ορίσουμε τη συσχέτιση χρησιμοποιώντας τον συντελεστή συσχέτισης (r), ο οποίος αντανακλά την ισχύ, τον βαθμό, την εγγύτητα και την κατεύθυνση της συσχέτισης μεταξύ τυχαίων μεταβλητών.

Ισχυρή συσχέτιση μεταξύ τυχαίων μεταβλητών- στοιχεία για την παρουσία κάποιας στατιστικής σύνδεσης ειδικά μεταξύ αυτών των φαινομένων, αλλά αυτή η σύνδεση δεν μπορεί να μεταφερθεί στα ίδια φαινόμενα, αλλά για διαφορετική κατάσταση. Συχνά, οι ερευνητές, έχοντας αποκτήσει σημαντική συσχέτιση μεταξύ δύο μεταβλητών στους υπολογισμούς τους, με βάση την απλότητα της ανάλυσης συσχέτισης, κάνουν εσφαλμένες διαισθητικές υποθέσεις σχετικά με την ύπαρξη σχέσεων αιτίου-αποτελέσματος μεταξύ των χαρακτηριστικών, ξεχνώντας ότι ο συντελεστής συσχέτισης είναι πιθανολογικός. .

Παράδειγμα:ο αριθμός των ατόμων που τραυματίστηκαν σε συνθήκες παγετού και ο αριθμός των τροχαίων ατυχημάτων μεταξύ μηχανοκίνητων οχημάτων. Αυτές οι ποσότητες θα συσχετίζονται μεταξύ τους, αν και δεν είναι απολύτως αλληλένδετες, αλλά έχουν μόνο μια σύνδεση με την κοινή αιτία αυτών των τυχαίων γεγονότων - τον μαύρο πάγο. Εάν η ανάλυση δεν αποκαλύψει συσχέτιση μεταξύ των φαινομένων, αυτό δεν αποτελεί ακόμη απόδειξη της απουσίας εξάρτησης μεταξύ τους, η οποία μπορεί να είναι πολύπλοκη μη γραμμική και να μην αποκαλύπτεται από υπολογισμούς συσχέτισης.




Οι πρώτοι που εισήγαγαν την έννοια της συσχέτισης στην επιστημονική χρήση ήταν οι Γάλλοι παλαιοντολόγος Georges Cuvier. Τον 18ο αιώνα, συνήγαγε το νόμο της συσχέτισης μερών και οργάνων ζωντανών οργανισμών, χάρη στον οποίο κατέστη δυνατή η αποκατάσταση της εμφάνισης ενός ολόκληρου απολιθωμένου πλάσματος, ζώου, από τα ευρεθέντα μέρη του σώματος (υπολείμματα). Στη στατιστική, ο όρος συσχέτιση χρησιμοποιήθηκε για πρώτη φορά το 1886 από έναν Άγγλο επιστήμονα Φράνσις Γκάλτον. Αλλά δεν μπορούσε να βγάλει τον ακριβή τύπο για τον υπολογισμό του συντελεστή συσχέτισης, αλλά ο μαθητής του το έκανε - διάσημος μαθηματικός και βιολόγος Karl Pearson.

Τύποι συσχέτισης

Κατά σημασία– εξαιρετικά σημαντικό, σημαντικό και ασήμαντο.

Είδη

τι ισούται με το r

Εξαιρετικά σημαντικό

Το r αντιστοιχεί στο επίπεδο στατιστικής σημαντικότητας p<=0,01

Σημαντικός

Το r αντιστοιχεί στο p<=0,05

Ασήμαντος

Το r δεν φτάνει το p>0,1

Αρνητικός(η μείωση της τιμής μιας μεταβλητής οδηγεί σε αύξηση του επιπέδου μιας άλλης: όσο περισσότερες φοβίες έχει ένα άτομο, τόσο λιγότερες πιθανότητες έχει να καταλάβει ηγετική θέση) και θετικό (αν μια αύξηση σε μια μεταβλητή οδηγεί σε αύξηση στο επίπεδο του άλλου: όσο πιο νευρικός είσαι, τόσο πιο πιθανό είναι να αρρωστήσεις). Εάν δεν υπάρχει σύνδεση μεταξύ των μεταβλητών, τότε μια τέτοια συσχέτιση ονομάζεται μηδέν.

Γραμμικός(όταν μια τιμή αυξάνεται ή μειώνεται, η δεύτερη επίσης αυξάνεται ή μειώνεται) και μη γραμμική (όταν όταν μια τιμή αλλάζει, η φύση της αλλαγής στη δεύτερη δεν μπορεί να περιγραφεί χρησιμοποιώντας μια γραμμική σχέση, τότε εφαρμόζονται άλλοι μαθηματικοί νόμοι - πολυωνυμικός, υπερβολικός σχέσεις).

Με δύναμη.

Πιθανότητα




Ανάλογα με την κλίμακα στην οποία ανήκουν οι υπό μελέτη μεταβλητές, υπολογίζονται διαφορετικοί τύποι συντελεστών συσχέτισης:

  1. Ο συντελεστής συσχέτισης Pearson, ο συντελεστής γραμμικής συσχέτισης κατά ζεύγη ή ο συσχετισμός ροπής προϊόντος υπολογίζεται για μεταβλητές με κλίμακες μέτρησης διαστήματος και κλίμακας.
  2. Συντελεστής συσχέτισης κατάταξης Spearman ή Kendall - όταν τουλάχιστον μία από τις ποσότητες έχει τακτική κλίμακα ή δεν κατανέμεται κανονικά.
  3. Συντελεστής συσχέτισης σημείων διπλής σειράς (συντελεστής συσχέτισης με πρόσημο Fechner) – εάν ένα από τα δύο μεγέθη είναι διχοτόμο.
  4. Συντελεστής συσχέτισης τεσσάρων πεδίων (συντελεστής συσχέτισης πολλαπλής κατάταξης (συμφωνία) – εάν δύο μεταβλητές είναι διχοτόμες.

Ο συντελεστής Pearson αναφέρεται σε παραμετρικούς δείκτες συσχέτισης, όλοι οι άλλοι είναι μη παραμετρικοί.

Η τιμή του συντελεστή συσχέτισης κυμαίνεται από -1 έως +1. Με πλήρη θετική συσχέτιση, r = +1, με πλήρη αρνητική συσχέτιση, r = -1.

Τύπος και υπολογισμός





Παραδείγματα

Είναι απαραίτητο να προσδιοριστεί η σχέση μεταξύ δύο μεταβλητών: του επιπέδου πνευματικής ανάπτυξης (σύμφωνα με το τεστ) και του αριθμού των καθυστερήσεων ανά μήνα (σύμφωνα με καταχωρήσεις στο εκπαιδευτικό περιοδικό) μεταξύ των μαθητών.

Τα αρχικά δεδομένα παρουσιάζονται στον πίνακα:

Δεδομένα IQ (x)

Δεδομένα για τον αριθμό των καθυστερήσεων (y)

Αθροισμα

1122

Μέση τιμή

112,2


Για να δοθεί μια σωστή ερμηνεία του ληφθέντος δείκτη, είναι απαραίτητο να αναλυθεί το πρόσημο του συντελεστή συσχέτισης (+ ή -) και η απόλυτη τιμή του (modulo).

Σύμφωνα με τον πίνακα ταξινόμησης του συντελεστή συσχέτισης κατά ισχύ, συμπεραίνουμε ότι rxy = -0,827 είναι ισχυρή αρνητική συσχέτιση. Έτσι, ο αριθμός των μαθητών που καθυστερούν εξαρτάται πολύ έντονα από το επίπεδο πνευματικής τους ανάπτυξης. Μπορούμε να πούμε ότι οι μαθητές με υψηλό επίπεδο IQ καθυστερούν στα μαθήματα λιγότερο συχνά από τους μαθητές με χαμηλό επίπεδο IQ.



Ο συντελεστής συσχέτισης μπορεί να χρησιμοποιηθεί τόσο από επιστήμονες για να επιβεβαιώσουν ή να αντικρούσουν την υπόθεση της εξάρτησης δύο μεγεθών ή φαινομένων και να μετρήσουν τη δύναμη και τη σημασία τους, όσο και από τους μαθητές για τη διεξαγωγή εμπειρικής και στατιστικής έρευνας σε διάφορα θέματα. Πρέπει να θυμόμαστε ότι αυτός ο δείκτης δεν είναι ιδανικό εργαλείο, υπολογίζεται μόνο για τη μέτρηση της ισχύος μιας γραμμικής σχέσης και θα είναι πάντα μια πιθανολογική τιμή που έχει ένα ορισμένο σφάλμα.

Η ανάλυση συσχέτισης χρησιμοποιείται στους ακόλουθους τομείς:

  • οικονομική επιστήμη?
  • αστροφυσική;
  • κοινωνικές επιστήμες (κοινωνιολογία, ψυχολογία, παιδαγωγική).
  • αγροχημεία?
  • μεταλλουργία;
  • βιομηχανία (για ποιοτικό έλεγχο).
  • υδροβιολογία;
  • βιομετρικά κλπ.

Λόγοι για τη δημοτικότητα της μεθόδου ανάλυσης συσχέτισης:

  1. Η σχετική απλότητα του υπολογισμού των συντελεστών συσχέτισης δεν απαιτεί ειδική μαθηματική εκπαίδευση.
  2. Σας επιτρέπει να υπολογίσετε τις σχέσεις μεταξύ τυχαίων μεταβλητών μάζας, οι οποίες αποτελούν αντικείμενο ανάλυσης στη στατιστική επιστήμη. Από αυτή την άποψη, αυτή η μέθοδος έχει γίνει ευρέως διαδεδομένη στον τομέα της στατιστικής έρευνας.

Ελπίζω ότι τώρα θα μπορέσετε να διακρίνετε μια λειτουργική σχέση από μια σχέση συσχέτισης και θα ξέρετε ότι όταν ακούτε στην τηλεόραση ή διαβάζετε στον Τύπο για συσχέτιση, σημαίνει μια θετική και αρκετά σημαντική αλληλεξάρτηση μεταξύ δύο φαινομένων.

Διάφορα σημάδια μπορεί να σχετίζονται μεταξύ τους.

Υπάρχουν 2 τύποι συνδέσεων μεταξύ τους:

  • λειτουργικός;
  • συσχέτιση.

Συσχέτισημεταφρασμένο στα ρωσικά δεν είναι τίποτα άλλο από μια σύνδεση.
Στην περίπτωση μιας σύνδεσης συσχέτισης, μπορεί να εντοπιστεί η αντιστοιχία πολλών τιμών ενός χαρακτηριστικού σε πολλές τιμές ενός άλλου χαρακτηριστικού. Ως παραδείγματα, μπορούμε να εξετάσουμε τις καθιερωμένες συσχετίσεις μεταξύ:

  • το μήκος των ποδιών, του λαιμού και του ράμφους πουλιών όπως ερωδιοί, γερανοί και πελαργοί·
  • δείκτες θερμοκρασίας σώματος και καρδιακών παλμών.

Για τις περισσότερες βιοϊατρικές διαδικασίες, η παρουσία αυτού του τύπου σύνδεσης έχει αποδειχθεί στατιστικά.

Οι στατιστικές μέθοδοι καθιστούν δυνατό τον προσδιορισμό του γεγονότος της ύπαρξης αλληλεξάρτησης των χαρακτηριστικών. Η χρήση ειδικών υπολογισμών για αυτό οδηγεί στον καθορισμό συντελεστών συσχέτισης (μέτρα συνδεσιμότητας).

Τέτοιοι υπολογισμοί ονομάζονται ανάλυση συσχέτισης.Πραγματοποιείται για να επιβεβαιωθεί η εξάρτηση 2 μεταβλητών (τυχαίες μεταβλητές) μεταξύ τους, η οποία εκφράζεται με τον συντελεστή συσχέτισης.

Η χρήση της μεθόδου συσχέτισης σάς επιτρέπει να λύσετε πολλά προβλήματα:

  • να προσδιορίσει την ύπαρξη σχέσης μεταξύ των παραμέτρων που αναλύθηκαν·
  • Η γνώση της παρουσίας μιας συσχέτισης μας επιτρέπει να επιλύσουμε προβλήματα πρόβλεψης. Έτσι, υπάρχει μια πραγματική ευκαιρία να προβλεφθεί η συμπεριφορά μιας παραμέτρου με βάση μια ανάλυση της συμπεριφοράς μιας άλλης παραμέτρου συσχέτισης.
  • διεξαγωγή ταξινόμησης με βάση την επιλογή χαρακτηριστικών ανεξάρτητων μεταξύ τους.

Για μεταβλητές:

  • Σε σχέση με την τακτική κλίμακα, υπολογίζεται ο συντελεστής Spearman.
  • που σχετίζεται με την κλίμακα διαστήματος – Συντελεστής Pearson.

Αυτές είναι οι πιο συχνά χρησιμοποιούμενες παράμετροι, υπάρχουν και άλλες εκτός από αυτές.

Η τιμή του συντελεστή μπορεί να εκφραστεί είτε θετική είτε αρνητική.

Στην πρώτη περίπτωση, καθώς αυξάνεται η τιμή μιας μεταβλητής, παρατηρείται αύξηση της δεύτερης. Εάν ο συντελεστής είναι αρνητικός, το μοτίβο αντιστρέφεται.

Σε τι χρησιμεύει ο συντελεστής συσχέτισης;

Οι τυχαίες μεταβλητές που σχετίζονται μεταξύ τους μπορεί να έχουν εντελώς διαφορετική φύση αυτής της σύνδεσης. Δεν θα είναι απαραίτητα λειτουργικό, στην περίπτωση που μπορεί να εντοπιστεί μια άμεση σχέση μεταξύ των ποσοτήτων. Τις περισσότερες φορές, και οι δύο ποσότητες επηρεάζονται από ένα σύνολο διαφόρων παραγόντων, σε περιπτώσεις όπου είναι κοινές και για τις δύο ποσότητες, παρατηρείται ο σχηματισμός σχετικών προτύπων.

Αυτό σημαίνει ότι το στατιστικά αποδεδειγμένο γεγονός της ύπαρξης σχέσης μεταξύ των ποσοτήτων δεν επιβεβαιώνει ότι έχει τεκμηριωθεί η αιτία των παρατηρούμενων αλλαγών. Κατά κανόνα, ο ερευνητής καταλήγει στο συμπέρασμα ότι υπάρχουν δύο αλληλένδετες συνέπειες.

Ιδιότητες του συντελεστή συσχέτισης

Αυτό το στατιστικό χαρακτηριστικό έχει τις ακόλουθες ιδιότητες:

  • Η τιμή του συντελεστή κυμαίνεται από -1 έως +1. Όσο πιο κοντά στις ακραίες τιμές, τόσο ισχυρότερη είναι η θετική ή αρνητική σχέση μεταξύ των γραμμικών παραμέτρων. Στην περίπτωση μηδενικής τιμής, μιλάμε για απουσία συσχέτισης μεταξύ των χαρακτηριστικών.
  • μια θετική τιμή του συντελεστή δείχνει ότι εάν η τιμή ενός χαρακτηριστικού αυξάνεται, παρατηρείται αύξηση του δεύτερου (θετική συσχέτιση).
  • αρνητική τιμή - σε περίπτωση αύξησης της τιμής ενός χαρακτηριστικού, παρατηρείται μείωση του δεύτερου (αρνητική συσχέτιση).
  • η προσέγγιση της τιμής του δείκτη στα ακραία σημεία (είτε -1 είτε +1) υποδηλώνει την παρουσία μιας πολύ ισχυρής γραμμικής σχέσης.
  • οι δείκτες ενός χαρακτηριστικού μπορούν να αλλάξουν ενώ η τιμή του συντελεστή παραμένει αμετάβλητη.
  • ο συντελεστής συσχέτισης είναι ένα αδιάστατο μέγεθος.
  • η παρουσία συσχέτισης δεν επιβεβαιώνει απαραίτητα μια σχέση αιτίου-αποτελέσματος.

Τιμές συντελεστών συσχέτισης

Η ισχύς της συσχέτισης μπορεί να χαρακτηριστεί με την προσφυγή στην κλίμακα Cheldock, στην οποία μια ορισμένη αριθμητική τιμή αντιστοιχεί σε ένα ποιοτικό χαρακτηριστικό.

Σε περίπτωση θετικής συσχέτισης με την τιμή:

  • 0-0,3 – ο συσχετισμός είναι πολύ ασθενής.
  • 0,3-0,5 – αδύναμο;
  • 0,5-0,7 - μέτρια αντοχή.
  • 0,7-0,9 – υψηλό;
  • 0,9-1 – πολύ υψηλή ισχύς συσχέτισης.

Η κλίμακα μπορεί επίσης να χρησιμοποιηθεί για αρνητική συσχέτιση. Στην περίπτωση αυτή, τα ποιοτικά χαρακτηριστικά αντικαθίστανται από τα αντίθετα.

Μπορείτε να χρησιμοποιήσετε την απλοποιημένη κλίμακα Cheldock, η οποία διακρίνει μόνο 3 διαβαθμίσεις ισχύος συσχέτισης:

  • πολύ ισχυροί - δείκτες ±0,7 - ±1.
  • μέσος όρος - δείκτες ±0,3 - ±0,699;
  • πολύ ασθενής - δείκτες 0 - ±0,299.

Αυτός ο στατιστικός δείκτης επιτρέπει όχι μόνο να ελέγξει την υπόθεση της ύπαρξης γραμμικής σχέσης μεταξύ των χαρακτηριστικών, αλλά και να καθορίσει την ισχύ του.

Τύποι συντελεστών συσχέτισης

Οι συντελεστές συσχέτισης μπορούν να ταξινομηθούν κατά πρόσημο και τιμή:

  • θετικός;
  • μηδενικό;
  • αρνητικός.

Ανάλογα με τις αναλυόμενες τιμές, υπολογίζεται ο συντελεστής:

  • Pearson;
  • Ακοντιστής;
  • Kendal;
  • Σημάδια Fechner;
  • συμφωνία ή συσχέτιση πολλαπλών βαθμίδων.

Ο συντελεστής συσχέτισης Pearson χρησιμοποιείται για τη δημιουργία άμεσων σχέσεων μεταξύ των απόλυτων τιμών των μεταβλητών. Σε αυτήν την περίπτωση, οι κατανομές και των δύο σειρών μεταβλητών θα πρέπει να προσεγγίζουν την κανονική. Οι συγκριτικές μεταβλητές πρέπει να διαφέρουν στον ίδιο αριθμό διαφορετικών χαρακτηριστικών. Η κλίμακα που αντιπροσωπεύει τις μεταβλητές πρέπει να είναι κλίμακα διαστήματος ή αναλογίας.

  • προσδιορίζοντας με ακρίβεια τη δύναμη συσχέτισης.
  • σύγκριση ποσοτικών χαρακτηριστικών.

Υπάρχουν λίγα μειονεκτήματα στη χρήση του γραμμικού συντελεστή συσχέτισης Pearson:

  • η μέθοδος είναι ασταθής σε περίπτωση ακραίων τιμών αριθμητικών τιμών.
  • Χρησιμοποιώντας αυτή τη μέθοδο, είναι δυνατός ο προσδιορισμός της ισχύος συσχέτισης μόνο για μια γραμμική σχέση για άλλους τύπους αμοιβαίων σχέσεων μεταβλητών, θα πρέπει να χρησιμοποιούνται μέθοδοι ανάλυσης παλινδρόμησης.

Η συσχέτιση κατάταξης καθορίζεται με τη μέθοδο Spearman, η οποία επιτρέπει σε κάποιον να μελετήσει στατιστικά τη σχέση μεταξύ των φαινομένων. Χάρη σε αυτόν τον συντελεστή, υπολογίζεται ο πραγματικός βαθμός παραλληλισμού δύο ποσοτικά εκφραζόμενων σειρών χαρακτηριστικών και αξιολογείται επίσης η στεγανότητα της προσδιορισμένης σύνδεσης.

  • δεν απαιτεί ακριβή προσδιορισμό της τιμής της δύναμης συσχέτισης·
  • οι συγκριτικοί δείκτες έχουν τόσο ποσοτική όσο και αποδοτική σημασία.
  • σύγκριση σειράς χαρακτηριστικών με ανοιχτές παραλλαγές τιμών.

Η μέθοδος του Spearman είναι μια μέθοδος μη παραμετρικής ανάλυσης, επομένως δεν χρειάζεται να ελεγχθεί η κανονικότητα της κατανομής ενός χαρακτηριστικού. Επιπλέον, σας επιτρέπει να συγκρίνετε δείκτες που εκφράζονται σε διαφορετικές κλίμακες. Για παράδειγμα, σύγκριση του αριθμού των ερυθρών αιμοσφαιρίων σε έναν ορισμένο όγκο αίματος (συνεχής κλίμακα) και εκτίμηση ειδικού εκφρασμένη σε μονάδες (τακτική κλίμακα).

Η αποτελεσματικότητα της μεθόδου επηρεάζεται αρνητικά από μια μεγάλη διαφορά μεταξύ των τιμών των συγκριτικών ποσοτήτων. Η μέθοδος δεν είναι επίσης αποτελεσματική σε περιπτώσεις όπου η μετρούμενη τιμή χαρακτηρίζεται από ανομοιόμορφη κατανομή τιμών.

Βήμα προς βήμα υπολογισμός του συντελεστή συσχέτισης στο Excel

Ο υπολογισμός του συντελεστή συσχέτισης περιλαμβάνει τη διαδοχική εκτέλεση ενός αριθμού μαθηματικών πράξεων.

Ο παραπάνω τύπος για τον υπολογισμό του συντελεστή Pearson δείχνει πόσο εντατική είναι αυτή η διαδικασία εάν γίνει χειροκίνητα.
Η χρήση των δυνατοτήτων του Excel επιταχύνει σημαντικά τη διαδικασία εύρεσης του συντελεστή.

Αρκεί να ακολουθήσετε έναν απλό αλγόριθμο ενεργειών:

  • εισαγωγή βασικών πληροφοριών - μια στήλη με τιμές x και μια στήλη με τιμές y.
  • στα εργαλεία, επιλέξτε και ανοίξτε την καρτέλα "Τύποι".
  • στην καρτέλα που ανοίγει, επιλέξτε "Εισαγωγή συνάρτησης fx".
  • στο παράθυρο διαλόγου που ανοίγει, επιλέξτε τη στατιστική συνάρτηση "Corel", η οποία σας επιτρέπει να υπολογίσετε τον συντελεστή συσχέτισης μεταξύ 2 συνόλων δεδομένων.
  • το παράθυρο που ανοίγει, εισαγάγετε τα δεδομένα: πίνακας 1 – εύρος τιμών της στήλης x (τα δεδομένα πρέπει να επιλεγούν), πίνακας 2 – εύρος τιμών της στήλης y.
  • πατιέται το πλήκτρο "ok", το αποτέλεσμα του υπολογισμού του συντελεστή εμφανίζεται στη γραμμή "τιμή".
  • συμπέρασμα σχετικά με την ύπαρξη συσχέτισης μεταξύ 2 συνόλων δεδομένων και της ισχύος τους.

Ο συντελεστής συσχέτισης αντικατοπτρίζει τον βαθμό σχέσης μεταξύ δύο δεικτών. Παίρνει πάντα μια τιμή από -1 έως 1. Εάν ο συντελεστής βρίσκεται γύρω στο 0, τότε δεν υπάρχει σύνδεση μεταξύ των μεταβλητών.

Εάν η τιμή είναι κοντά στο ένα (από 0,9, για παράδειγμα), τότε υπάρχει ισχυρή άμεση σχέση μεταξύ των παρατηρούμενων αντικειμένων. Εάν ο συντελεστής είναι κοντά στο άλλο ακραίο σημείο του εύρους (-1), τότε υπάρχει ισχυρή αντίστροφη σχέση μεταξύ των μεταβλητών. Όταν η τιμή είναι κάπου μεταξύ 0 και 1 ή 0 και -1, τότε μιλάμε για αδύναμη σύνδεση (άμεση ή αντίστροφη). Αυτή η σχέση συνήθως δεν λαμβάνεται υπόψη: πιστεύεται ότι δεν υπάρχει.

Υπολογισμός συντελεστή συσχέτισης στο Excel

Ας δούμε ένα παράδειγμα μεθόδων για τον υπολογισμό του συντελεστή συσχέτισης, χαρακτηριστικά άμεσων και αντίστροφων σχέσεων μεταξύ μεταβλητών.

Τιμές των δεικτών x και y:

Το Y είναι μια ανεξάρτητη μεταβλητή, η x είναι μια εξαρτημένη μεταβλητή. Είναι απαραίτητο να βρείτε τη δύναμη (ισχυρή/αδύναμη) και την κατεύθυνση (εμπρός/αντίστροφη) της σύνδεσης μεταξύ τους. Ο τύπος του συντελεστή συσχέτισης μοιάζει με αυτό:


Για να γίνει πιο κατανοητό, ας το αναλύσουμε σε αρκετά απλά στοιχεία.

Καθορίζεται μια ισχυρή άμεση σχέση μεταξύ των μεταβλητών.

Η ενσωματωμένη συνάρτηση CORREL αποφεύγει πολύπλοκους υπολογισμούς. Ας υπολογίσουμε τον συντελεστή συσχέτισης ζεύγους στο Excel χρησιμοποιώντας τον. Καλέστε τον οδηγό λειτουργίας. Βρίσκουμε αυτό που χρειαζόμαστε. Τα ορίσματα συνάρτησης είναι ένας πίνακας τιμών y και ένας πίνακας τιμών x:

Ας δείξουμε τις τιμές των μεταβλητών στο γράφημα:


Είναι ορατή μια ισχυρή σύνδεση μεταξύ y και x, επειδή οι γραμμές τρέχουν σχεδόν παράλληλες μεταξύ τους. Η σχέση είναι άμεση: το y αυξάνεται - το x αυξάνεται, το y μειώνεται - το x μειώνεται.



Πίνακας συντελεστών συσχέτισης ζεύγους στο Excel

Ο πίνακας συσχέτισης είναι ένας πίνακας στην τομή γραμμών και στηλών του οποίου βρίσκονται οι συντελεστές συσχέτισης μεταξύ των αντίστοιχων τιμών. Είναι λογικό να το δημιουργήσουμε για πολλές μεταβλητές.

Ο πίνακας των συντελεστών συσχέτισης στο Excel κατασκευάζεται χρησιμοποιώντας το εργαλείο "Συσχέτιση" από το πακέτο "Ανάλυση δεδομένων".


Βρέθηκε μια ισχυρή άμεση σχέση μεταξύ των τιμών του y και του x1. Υπάρχει ισχυρή ανατροφοδότηση μεταξύ x1 και x2. Πρακτικά δεν υπάρχει σύνδεση με τις τιμές στη στήλη x3.