05.03.2024

Як рахувати коефіцієнт кореляції. Коефіцієнти кореляції. Використання Excel для обчислення коефіцієнтів кореляції


Зауважте!Рішення вашого конкретного завдання буде виглядати аналогічно даному прикладу, включаючи всі таблиці та пояснюючі тексти, подані нижче, але з урахуванням ваших вихідних даних.

Завдання:
Є пов'язана вибірка з 26 пар значень (х k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Потрібно обчислити/побудувати:
- Коефіцієнт кореляції;
- перевірити гіпотезу залежності випадкових величин X і Y, при рівні значущості α = 0.05;
- Коефіцієнти рівняння лінійної регресії;
- діаграму розсіювання (кореляційне поле) та графік лінії регресії;

РІШЕННЯ:

1. Обчислюємо коефіцієнт кореляції.

Коефіцієнт кореляції – це показник взаємного імовірнісного впливу двох випадкових величин. Коефіцієнт кореляції Rможе приймати значення від -1 до +1 . Якщо абсолютне значення знаходиться ближче до 1 , то це свідчення сильного зв'язку між величинами, а якщо ближче до 0 - те, це говорить про слабкий зв'язок або його відсутність. Якщо абсолютне значення Rі одиниці, то можна говорити про функціональний зв'язок між величинами, тобто одну величину можна виразити через іншу за допомогою математичної функції.


Обчислити коефіцієнт кореляції можна за такими формулами:
n
Σ
k = 1
(x k -M x) 2 , σ y 2 =
M x =
1
n
n
Σ
k = 1
x k , M y =

або за формулою

R x,y =
M xy - M x M y
S x S y
(1.4), де:
M x =
1
n
n
Σ
k = 1
x k , M y =
1
n
n
Σ
k = 1
y k , M xy =
1
n
n
Σ
k = 1
x k y k (1.5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2 S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1.6)

Насправді, для обчислення коефіцієнта кореляції частіше використовується формула (1.4) т.к. вона потребує менше обчислень. Однак якщо попередньо було вираховано коваріацію cov(X,Y), то вигідніше використати формулу (1.1), т.к. Крім власне значення коваріації можна скористатися і результатами проміжних обчислень.

1.1 Обчислимо коефіцієнт кореляції за формулою (1.4)для цього обчислимо значення x k 2 , y k 2 і x k y k і занесемо їх до таблиці 1.

Таблиця 1


k
x k y k х k 2 y k 2 х ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Обчислимо M x за формулою (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25.20000 + 26.40000 + ... + 25.80000 = 669.500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25.750000

1.3. Аналогічним чином обчислимо M y.

1.3.1. Складемо послідовно всі елементи y k

y 1 + y 2 + … + y 26 = 30.80000 + 29.40000 + ... + 30.80000 = 793.000000

1.3.2. Розділимо отриману суму на кількість елементів вибірки

793.00000 / 26 = 30.50000

M y = 30.500000

1.4. Аналогічно обчислимо M xy.

1.4.1. Складемо послідовно всі елементи 6-го стовпця таблиці 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Розділимо отриману суму на кількість елементів

20412.83000 / 26 = 785.10885

M xy = 785.108846

1.5. Обчислимо значення S x 2 за формулою (1.6).

1.5.1. Складемо послідовно всі елементи 4-го стовпця таблиці 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Розділимо отриману суму на кількість елементів

17256.91000 / 26 = 663.72731

1.5.3. Віднімемо з останнього числа квадрат величини M x отримаємо значення для S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Обчислимо значення S y 2 за формулою (1.6).

1.6.1. Складемо послідовно всі елементи 5-го стовпця таблиці 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Розділимо отриману суму на кількість елементів

24191.84000 / 26 = 930.45538

1.6.3. Віднімемо з останнього числа квадрат величини M y отримаємо значення для S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Обчислимо добуток величин S x 2 і S y 2.

S x 2 S y 2 = 0.66481 0.20538 = 0.136541

1.8. Витягнемо і останнього числа квадратний корінь, отримаємо значення S x S y.

S x S y = 0.36951

1.9. Обчислимо значення коефіцієнта кореляції за формулою (1.4).

R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028

ВІДПОВІДЬ: R x, y = -0.720279

2. Перевіряємо значущість коефіцієнта кореляції (перевіряємо гіпотезу залежності).

Оскільки оцінка коефіцієнта кореляції обчислена кінцевої вибірці, і тому може відхилятися від свого генерального значення, необхідно перевірити значущість коефіцієнта кореляції. Перевірка проводиться за допомогою t-критерію:

t =
R x,y
n - 2
1 - R 2 x,y
(2.1)

Випадкова величина tслід t-розподілу Стьюдента і по таблиці t-розподілу необхідно знайти критичне значення критерію (t кр. α) за заданого рівня значущості α. Якщо обчислене за формулою (2.1) t за модулем виявиться менше ніж t кр.α, то залежності між випадковими величинами X і Y немає. В іншому випадку експериментальні дані не суперечать гіпотезі про залежність випадкових величин.


2.1. Обчислимо значення t-критерію за формулою (2.1) отримаємо:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Визначимо за таблицею t-розподілу критичне значення параметра t кр.

Шукане значення t кр.α розташовується на перетині рядка, що відповідає числу ступенів свободи і стовпця, що відповідає заданому рівню значимості α.
У нашому випадку число ступенів свободи є n - 2 = 26 - 2 = 24 та α = 0.05 , Що відповідає критичному значенню критерію t кр. 2.064 (Див. табл. 2)

Таблиця 2 t-розподіл

Число ступенів свободи
(n - 2)
α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = 0.002 α = 0.001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Порівняємо абсолютне значення t-критерію і t кр.

Абсолютне значення t-критерію не менше критичного t = 5.08680, t кр.α = 2.064, отже експериментальні дані, із ймовірністю 0.95(1 - α), не суперечать гіпотезіпро залежність випадкових величин X та Y.

3. Обчислюємо коефіцієнти рівняння лінійної регресії.

Рівняння лінійної регресії є рівнянням прямої, апроксимуючої (приблизно описує) залежність між випадковими величинами X і Y. Якщо вважати, що величина X вільна, а Y залежна від Х, то рівняння регресії запишеться наступним чином


Y = a + b X (3.1), де:

b =R x,y
σ y
σ x
= R x,y
S y
S x
(3.2),
a = M y - b M x (3.3)

Розрахований за формулою (3.2) коефіцієнт bназивають коефіцієнтом лінійної регресії. У деяких джерелах aназивають постійним коефіцієнтом регресії та bвідповідно змінним.

Похибки передбачення Y за заданим значенням X обчислюються за формулами:

Величину σ y/x (формула 3.4) ще називають залишковим середнім квадратичним відхиленням, Воно характеризує відхід величини Y від лінії регресії, що описується рівнянням (3.1), при фіксованому (заданому) значенні X.

.
S y 2 / S x 2 = 0.20538/0.66481 = 0.30894. Витягнемо з останнього числа квадратний корінь - отримаємо:
S y / S x = 0.55582

3.3 Обчислимо коефіцієнт bза формулою (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Обчислимо коефіцієнт aза формулою (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Оцінимо похибки рівняння регресії.

3.5.1 Виймемо із S y 2 квадратний корінь отримаємо:

= 0.31437
3.5.4 Обчислимо відносну похибку за формулою (3.5)

δ y/x = (0.31437 / 30.50000) 100% = 1.03073%

4. Будуємо діаграму розсіювання (кореляційне поле) та графік лінії регресії.

Діаграма розсіювання - це графічне зображення відповідних пар (x k , y k ) у вигляді точок площини, прямокутних координатах з осями X і Y. Кореляційне поле є одним з графічних уявлень пов'язаної (парної) вибірки. У тій системі координат будується і графік лінії регресії. Слід ретельно вибрати масштаби та початкові точки на осях, щоб діаграма була максимально наочною.

4.1. Знаходимо мінімальний та максимальний елемент вибірки X це 18-й та 15-й елементи відповідно, x min = 22.10000 та x max = 26.60000.

4.2. Знаходимо мінімальний та максимальний елемент вибірки Y це 2-й та 18-й елементи відповідно, y min = 29.40000 та y max = 31.60000.

4.3. На осі абсцис вибираємо початкову точку трохи лівіше від точки x 18 = 22.10000, і такий масштаб, щоб на осі помістилася точка x 15 = 26.60000 і чітко розрізнялися інші точки.

4.4. На осі ординат вибираємо початкову точку трохи лівіше від точки y 2 = 29.40000, і такий масштаб, щоб на осі помістилася точка y 18 = 31.60000 і чітко розрізнялися інші точки.

4.5. На осі абсцис розміщуємо значення x k , але в осі ординат значення y k .

4.6. Наносимо точки (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) на координатну площину. Отримуємо діаграму розсіювання (кореляційне поле), зображене нижче.

4.7. Накреслимо лінію регресії.

Для цього знайдемо дві різні точки з координатами (x r1, y r1) і (x r2, y r2), що задовольняють рівняння (3.6), нанесемо їх на координатну площину і проведемо через них пряму. Як абсцис першої точки візьмемо значення x min = 22.10000. Підставимо значення x min у рівняння (3.6), отримаємо ординату першої точки. Таким чином маємо точку з координатами (22.10000, 31.96127). Аналогічним чином отримаємо координати другої точки, поклавши як абсцис значення x max = 26.60000. Друга точка буде: (26.60000, 30.15970).

Лінія регресії показана на малюнку нижче червоним кольором

Зверніть увагу, що лінія регресії проходить через точку середніх значень величин Х і Y, тобто. з координатами (M x , M y).

Метою кореляційного аналізує виявлення оцінки сили зв'язку між випадковими величинами (ознаками), що характеризує певний реальний процес.
Завдання кореляційного аналізу:
а) Вимір ступеня зв'язності (тісноти, сили, строгості, інтенсивності) двох і більше явищ.
б) Відбір факторів, що найбільш істотно впливають на результативну ознаку, на підставі вимірювання ступеня зв'язності між явищами. Істотні в цьому аспекті фактори використовують далі в регресійному аналізі.
в) Виявлення невідомих причинних зв'язків.

Форми прояви взаємозв'язків дуже різноманітні. Як найзагальніші їх види виділяють функціональну (повну) і кореляційний (неповний) зв'язок.
Кореляційний зв'язокпроявляється в середньому для масових спостережень, коли заданим значенням залежної змінної відповідає деякий ряд ймовірнісних значень незалежної змінної. Зв'язок називається кореляційнимякщо кожному значенню факторної ознаки відповідає цілком певне невипадкове значення результативної ознаки.
Наочним зображенням кореляційної таблиці служить кореляційне поле. Воно є графік, де на осі абсцис відкладаються значення X, по осі ординат - Y, а точками показуються поєднання X і Y. За розташуванням точок можна судити про наявність зв'язку.
Показники тісноти зв'язкудають можливість охарактеризувати залежність варіації результативної ознаки від варіації ознаки-фактора.
Більш досконалим показником ступеня тісноти кореляційного зв'язкує лінійний коефіцієнт кореляції. При розрахунку цього показника враховуються як відхилення індивідуальних значень ознаки від середньої, а й сама величина цих відхилень.

Ключовими питаннями даної теми є рівняння регресійного зв'язку між результативною ознакою та пояснювальною змінною, метод найменших квадратів для оцінки параметрів регресійної моделі, аналіз якості отриманого рівняння регресії, побудова довірчих інтервалів прогнозу значень результативної ознаки рівняння регресії.

Приклад 2


Система звичайних рівнянь.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для наших даних система рівнянь має вигляд
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
З першого рівняння виражаємо аі підставимо на друге рівняння:
Отримуємо b = -3.46, a = 1379.33
Рівняння регресії:
y = -3.46 x + 1379.33

2. Розрахунок параметрів рівняння регресії.
Вибіркові середні.



Вибіркові дисперсії:


Середньоквадратичне відхилення


1.1. Коефіцієнт кореляції
Коваріація.

Розраховуємо показник тісноти зв'язку. Таким показником є ​​вибірковий лінійний коефіцієнт кореляції, який розраховується за такою формулою:

Лінійний коефіцієнт кореляції набуває значення від –1 до +1.
Зв'язки між ознаками можуть бути слабкими та сильними (тісними). Їхні критерії оцінюються за шкалою Чеддока:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
У нашому прикладі зв'язок між ознакою Y фактором X висока та зворотна.
Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b:

1.2. Рівняння регресії(Оцінка рівняння регресії).

Лінійне рівняння регресії має вигляд y = -3.46 x + 1379.33

p align="justify"> Коефіцієнт b = -3.46 показує середня зміна результативного показника (в одиницях вимірювання у) з підвищенням або зниженням величини фактора х на одиницю його вимірювання. У цьому прикладі із збільшенням на 1 одиницю y знижується загалом на -3.46.
Коефіцієнт a = 1379.33 формально показує прогнозований рівень у, але у разі, якщо х=0 перебуває близько з вибірковими значеннями.
Але якщо х=0 знаходиться далеко від вибіркових значень х, то буквальна інтерпретація може призвести до невірних результатів, і навіть якщо лінія регресії досить точно описує значення вибірки, що спостерігається, немає гарантій, що також буде при екстраполяції вліво або вправо.
Підставивши в рівняння регресії відповідні значення x, можна визначити вирівняні (передбачені) значення результативного показника y(x) для кожного спостереження.
Зв'язок між у них визначає знак коефіцієнта регресії b (якщо > 0 - прямий зв'язок, інакше - зворотний). У нашому прикладі зв'язок зворотний.
1.3. Коефіцієнт еластичності.
Коефіцієнти регресії (у прикладі b) небажано використовувати для безпосередньої оцінки впливу факторів на результативну ознаку в тому випадку, якщо існує відмінність одиниць вимірювання результативного показника у факторної ознаки х.
З цією метою обчислюються коефіцієнти еластичності і бета - коефіцієнти.
Середній коефіцієнт еластичності E показує, наскільки відсотків у середньому за сукупністю зміниться результат увід своєї середньої величини за зміни фактора xна 1% від середнього значення.
Коефіцієнт еластичності знаходиться за формулою:


p align="justify"> Коефіцієнт еластичності менше 1. Отже, при зміні Х на 1%, Y зміниться менш ніж на 1%. Іншими словами - вплив Х на Y не суттєво.
Бета – коефіцієнтпоказує, яку частину величини свого середнього квадратичного відхилення зміниться у середньому значення результативного ознаки при зміні факторного ознаки на величину його середньоквадратичного відхилення при фіксованому постійному значенні інших незалежних змінних:

Тобто. збільшення x на величину середньоквадратичного відхилення S x призведе до зменшення середнього значення Y на 0.74 середньоквадратичного відхилення S y.
1.4. Помилка апроксимації.
Оцінимо якість рівняння регресії за допомогою помилки абсолютної апроксимації. Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:


Оскільки помилка менше 15%, то дане рівняння можна використовувати як регресію.
Дисперсійний аналіз.
Завдання дисперсійного аналізу полягає в аналізі дисперсії залежною змінною:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
де
∑(y i - y cp) 2 - загальна сума квадратів відхилень;
∑(y(x) - y cp) 2 - сума квадратів відхилень, обумовлена ​​регресією («пояснена» або «факторна»);
∑(y - y(x)) 2 - залишкова сума квадратів відхилень.
Теоретичне кореляційне відношеннядля лінійного зв'язку дорівнює коефіцієнту кореляції r xy.
Для будь-якої форми залежності тіснота зв'язку визначається за допомогою множинного коефіцієнта кореляції:

Даний коефіцієнт є універсальним, тому що відображає тісноту зв'язку та точність моделі, а також може використовуватися за будь-якої форми зв'язку змінних. При побудові однофакторної кореляційної моделі коефіцієнт множинної кореляції дорівнює коефіцієнту парної кореляції r xy.
1.6. Коефіцієнт детермінації.
Квадрат (множинного) коефіцієнта кореляції називається коефіцієнтом детермінації, який показує частку варіації результативної ознаки, пояснену варіацією факторної ознаки.
Найчастіше, даючи інтерпретацію коефіцієнта детермінації, його виражають у відсотках.
R 2 = -0.74 2 = 0.5413
тобто. у 54.13% випадків зміни х призводять до зміни y. Іншими словами – точність підбору рівняння регресії – середня. Інші 45.87 % зміни Y пояснюються факторами, не врахованими у моделі.

Список літератури

  1. Економетрика: Підручник/За ред. І.І. Єлісєєвої. - М.: Фінанси та статистика, 2001, с. 34..89.
  2. Магнус Я.Р., Катишев П.К., Пересецький А.А. Економетрики. Початковий курс Навчальний посібник. - 2-ге вид., Випр. - М.: Справа, 1998, с. 17..42.
  3. Практикум з економетрики: Навч. посібник/І.І. Єлісєєва, С.В. Куришева, Н.М. Гордєєнко та ін; За ред. І.І. Єлісєєвої. - М.: Фінанси та статистика, 2001, с. 5..48.

06.06.2018 16 235 0 Ігор

Психологія та суспільство

Все у світі взаємопов'язане. Кожна людина на рівні інтуїції намагається знайти взаємозв'язки між явищами, щоб мати можливість впливати на них та керувати ними. Поняття, що відбиває цей взаємозв'язок, називається кореляцією. Що вона означає простими словами?

Зміст:

Поняття кореляції

Кореляція (від латинського "correlatio" - співвідношення, взаємозв'язок)– математичний термін, що означає міру статистичної імовірнісної залежності між випадковими величинами (змінними).



Приклад:візьмемо два види взаємозв'язку:

  1. Перший- Ручка в руці людини. В який бік рухається рука, в бік і ручка. Якщо рука перебуває у стані спокою, то й ручка не писатиме. Якщо людина трохи сильніше натисне на неї, то слід на папері буде більш насиченим. Такий вид взаємозв'язку відбиває жорстку залежність і є кореляційним. Це взаємозв'язок – функціональний.
  2. Другий вигляд– залежність між рівнем освіти людини та прочитанням літератури. Заздалегідь невідомо, хто з людей читає більше: з вищою освітою чи без неї. Цей зв'язок – випадковий чи стохастичний, його вивчає статистична наука, яка займається виключно масовими явищами. Якщо статистичний розрахунок дозволить довести кореляційний зв'язок між рівнем освіченості та прочитанням літератури, то це дасть змогу робити будь-які прогнози, передбачати ймовірнісне настання подій. У цьому прикладі з великою ймовірністю можна стверджувати, що більше читають книги люди з вищою освітою, ті, хто більш освічений. Але оскільки зв'язок між цими параметрами не функціональний, ми можемо і помилитися. Завжди можна розрахувати ймовірність такої помилки, яка буде однозначно невеликою і називається рівнем статистичної значущості (p).

Прикладами взаємозв'язку між природними явищами є:ланцюжок харчування в природі, організм людини, що складається із систем органів, взаємопов'язаних між собою та функціонуючих як єдине ціле.

Щодня ми стикаємося з кореляційною залежністю у повсякденному житті: між погодою та гарним настроєм, правильним формулюванням цілей та їх досягненням, позитивним настроєм та везінням, відчуттям щастя та фінансовим благополуччям. Але ми шукаємо зв'язку, спираючись не так на математичні розрахунки, але в міфи, інтуїцію, забобони, пусті домисли. Ці явища дуже складно перекласти математичною мовою, висловити в цифрах, виміряти. Інша річ, коли ми аналізуємо явища, які можна прорахувати, подати у вигляді цифр. У такому разі ми можемо визначити кореляцію за допомогою коефіцієнта кореляції (r), що відображає силу, ступінь, тісноту та напрямок кореляційного зв'язку між випадковими змінними.

Сильна кореляція між випадковими величинами– свідчення наявності деякої статистичної зв'язку саме між цими явищами, але це зв'язок неспроможна переноситися на ці ж явища, але в інший ситуации. Часто дослідники, отримавши у розрахунках значну кореляцію між двома змінними, ґрунтуючись на простоті кореляційного аналізу, роблять хибні інтуїтивні припущення про існування причинно-наслідкових взаємозв'язків між ознаками, забуваючи про те, що коефіцієнт кореляції носить імовірнісний характер.

Приклад:кількість травмованих під час ожеледиці та кількість ДТП серед автотранспорту. Ці величини корелюватимуть між собою, хоча вони абсолютно не взаємопов'язані між собою, а мають тільки зв'язок із загальною причиною цих випадкових подій – ожеледицею. Якщо ж аналіз не виявив кореляційного взаємозв'язку між явищами, це ще не є свідченням відсутності залежності між ними, яка може бути складною нелінійною, яка не виявляється за допомогою кореляційних розрахунків.




Першим, хто ввів у науковий обіг поняття кореляції, був французький палеонтолог Жорж Кюв'є. Він у XVIII столітті вивів закон кореляції частин 17-ї та органів живих організмів, завдяки якому з'явилася можливість відновлювати по знайденим частинам тіла (останкам) вигляд всієї викопної істоти, тварини. У статистиці термін кореляції вперше застосував 1886 року англійський учений Френсіс Гальтон. Але він не зміг вивести точну формулу для розрахунку коефіцієнта кореляції, але це зробив його студент. найвідоміший математик і біолог Карл Пірсон.

Види кореляції

За значимістю- Високозначна, значуща і незначна.

Види

чому дорівнює r

Високозначна

r відповідає рівню статистичної значущості p<=0,01

Значна

r відповідає p<=0,05

Незначна

r не досягає p>0,1

Негативна(Зменшення значення однієї змінної веде до зростання рівня іншої: чим більше у людини фобій, тим менша ймовірність обійняти керівну посаду) і позитивна (якщо зростання однієї величини тягне за собою збільшення рівня іншої: чим більше нервуєш, тим більша ймовірність захворіти). Якщо зв'язку між змінними немає, тоді така кореляція називається нульової.

Лінійна(коли одна величина зростає чи зменшується, друга теж збільшується чи зменшується) і нелінійна (коли за зміни однієї величини характер зміни другий неможливо описати з допомогою лінійної залежності, тоді застосовуються інші математичні закони – поліноміальної, гиперболической залежності).

За силою.

Коефіцієнти




Залежно від того, до якої шкали відносяться змінні, що досліджуються, розраховуються різні види коефіцієнтів кореляції:

  1. Коефіцієнт кореляції Пірсона, коефіцієнт парної лінійної кореляції або кореляція моментів творів розраховується для змінних з інтервальною та кількісною шкалою виміру.
  2. Коефіцієнт рангової кореляції Спірмена чи Кендалла – коли хоча одна з величин має порядкову шкалу або є нормально розподіленої.
  3. Коефіцієнт точкової дворядної кореляції (коефіцієнт кореляції знаків Фехнера) – якщо з двох величин є дихотомической.
  4. Коефіцієнт чотирипольової кореляції (коефіцієнт множинної рангової кореляції (конкордації) – якщо дві змінні дихотомічні.

Коефіцієнт Пірсона належить до параметричних показників кореляції, решта – до непараметричним.

Значення коефіцієнта кореляції у межах від -1 до +1. За повної позитивної кореляції r = +1, за повної негативної – r = -1.

Формула та розрахунок





Приклади

Необхідно визначити взаємозв'язок двох змінних: рівня інтелектуального розвитку (за даними проведеного тестування) та кількості запізнень за місяць (за даними записів у навчальному журналі) у школярів.

Вихідні дані представлені у таблиці:

Дані за рівнем IQ (x)

Дані щодо кількості запізнень (y)

Сума

1122

Середнє арифметичне

112,2


Щоб дати правильну інтерпретацію отриманого показника, необхідно проаналізувати знак коефіцієнта кореляції (+ або -) та його абсолютне значення (за модулем).

Відповідно до таблиці класифікації коефіцієнта кореляції за силою робимо висновок у тому, rxy = -0,827 – це сильна негативна кореляційна залежність. Таким чином, кількість запізнень школярів має дуже сильну залежність від рівня інтелектуального розвитку. Можна сказати, що учні з високим рівнем IQ спізнюються рідше на заняття, ніж учні з низьким IQ.



Коефіцієнт кореляції може застосовуватися як вченими для підтвердження або спростування припущення про залежність двох величин або явищ та виміру її сили, значущості, так і студентами для проведення емпіричних та статистичних досліджень з різних предметів. Необхідно пам'ятати, що цей показник не є ідеальним інструментом, він розраховується лише для вимірювання сили лінійної залежності і завжди буде імовірнісною величиною, яка має певну похибку.

Кореляційний аналіз застосовується у таких областях:

  • економічна наука;
  • астрофізика;
  • соціальні науки (соціологія, психологія, педагогіка);
  • агрохімія;
  • металознавство;
  • промисловість (контролю якості);
  • гідробіологія;
  • біометрія і т.д.

Причини популярності методу кореляційного аналізу:

  1. Відносна простота розрахунку коефіцієнтів кореляції, для цього не потрібна спеціальна математична освіта.
  2. Дозволяє розрахувати взаємозв'язки між масовими випадковими величинами, що є предметом аналізу статистичної науки. У зв'язку з цим цей метод набув широкого поширення в галузі статистичних досліджень.

Сподіваюся, тепер ви зможете відрізнити функціональний взаємозв'язок від кореляційного і знатимете, що коли ви чуєте по телебаченню або читаєте в пресі про кореляцію, то під нею мають на увазі позитивну і досить значну взаємозалежність між двома явищами.

Різні ознаки можуть бути пов'язані між собою.

Виділяють 2 види зв'язку між ними:

  • функціональна;
  • кореляційна.

Кореляціяу перекладі російською мовою – не що інше, як зв'язок.
У разі кореляційного зв'язку простежується відповідність кількох значень однієї ознаки кільком значенням іншої ознаки. Як приклади можна розглянути встановлені кореляційні зв'язки між:

  • довжиною лап, шиї, дзьоба у таких птахів як чаплі, журавлі, лелеки;
  • показниками температури тіла та частоти серцевих скорочень.

Більшість медико-біологічних процесів статистично доведено присутність цього зв'язку.

Статистичні методи дають змогу встановити факт існування взаємозалежності ознак. Використання цього спеціальних розрахунків призводить до встановлення коефіцієнтів кореляції (заходи пов'язаності).

Такі розрахунки дістали назву кореляційний аналіз.Він проводиться на підтвердження залежності друг від друга 2-х змінних (випадкових величин), що виражається коефіцієнтом кореляції.

Використання кореляційного методу дозволяє вирішити декілька завдань:

  • виявити наявність взаємозв'язку між аналізованими параметрами;
  • знання наявності кореляційного зв'язку дозволяє вирішувати проблеми прогнозування. Так, існує реальна можливість передбачати поведінку параметра на основі аналізу поведінки іншого параметра, що корелює;
  • проведення класифікації з урахуванням підбору незалежних друг від друга ознак.

Для змінних величин:

  • що належать до порядкової шкали, розраховується коефіцієнт Спірмена;
  • що відносяться до інтервальної шкали - коефіцієнт Пірсона.

Це найчастіше використовувані параметри, крім них є інші.

Значення коефіцієнта може бути як позитивним, і негативними.

У першому випадку зі збільшенням значення однієї змінної спостерігається збільшення другої. При негативному коефіцієнті закономірність зворотна.

Навіщо потрібен коефіцієнт кореляції?

Випадкові величини, пов'язані між собою, можуть мати зовсім різну природу зв'язку. Не обов'язково вона буде функціональною, випадок коли простежується пряма залежність між величинами. Найчастіше на обидві величини діє ціла сукупність різноманітних факторів, у випадках, коли вони є загальними для обох величин, спостерігається формування пов'язаних закономірностей.

Це означає, що доведений статистично факт наявності зв'язку між величинами не є підтвердженням того, що встановлено причину змін, що спостерігаються. Як правило, дослідник робить висновок про наявність двох взаємозалежних наслідків.

Властивості коефіцієнта кореляції

Цій статистичній характеристиці притаманні такі властивості:

  • значення коефіцієнта знаходиться в діапазоні від -1 до +1. Чим ближче до крайніх значень, тим більше позитивна чи негативна зв'язок між лінійними параметрами. У разі нульового значення йдеться про відсутність кореляції між ознаками;
  • позитивне значення коефіцієнта свідчить у тому, що разі збільшення значення однієї ознаки спостерігається збільшення другого (позитивна кореляція);
  • негативне значення – у разі збільшення значення однієї ознаки спостерігається зменшення другої (негативна кореляція);
  • наближення значення показника до крайніх точок (або -1 або +1) свідчить про наявність дуже сильного лінійного зв'язку;
  • показники ознаки можуть змінюватись при незмінному значенні коефіцієнта;
  • кореляційний коефіцієнт є безрозмірною величиною;
  • наявність кореляційного зв'язку перестав бути обов'язковим підтвердженням причинно-наслідкового зв'язку.

Значення коефіцієнта кореляції

Охарактеризувати силу кореляційного зв'язку можна вдавшись до шкали Челдока, у якій певному числовому значенню відповідає якісна характеристика.

У разі позитивної кореляції при значенні:

  • 0-0,3 - кореляційний зв'язок дуже слабкий;
  • 0,3-0,5 – слабка;
  • 0,5-0,7 – середньої сили;
  • 0,7-0,9 – висока;
  • 0,9-1 – дуже висока сила кореляції.

Шкала може використовуватись і для негативної кореляції. І тут якісні характеристики замінюються на протилежні.

Можна скористатися спрощеною шкалою Челдока, в якій виділяється всього 3 градації сили кореляційного зв'язку:

  • дуже сильна - показники ±0,7 - ±1;
  • середня – показники ±0,3 – ±0,699;
  • дуже слабка – показники 0 – ±0,299.

Цей статистичний показник дозволяє як перевірити припущення про існування лінійної взаємозв'язку між ознаками, а й встановити її силу.

Види коефіцієнта кореляції

Коефіцієнти кореляції можна класифікувати за знаком і значенням:

  • позитивний;
  • нульовий;
  • негативний.

Залежно від аналізованих значень розраховується коефіцієнт:

  • Пірсона;
  • Спірмена;
  • Кендалу;
  • знаків Фехнера;
  • конкордації чи множинної рангової кореляції.

Кореляційний коефіцієнт Пірсона використовується встановлення прямих зв'язків між абсолютними значеннями змінних. При цьому розподіл обох рядів змінних має наближатися до нормального. Порівнянні змінні повинні відрізнятися однаковим числом ознак, що варіюють. Шкала, що представляє змінні, має бути інтервальної чи шкалою відносин.

  • точного встановлення кореляційної сили;
  • порівняння кількісних ознак.

Недоліків використання лінійного кореляційного коефіцієнта Пірсона небагато:

  • метод нестійкий у разі викидів числових значень;
  • за допомогою цього методу можливе визначення кореляційної сили тільки для лінійного взаємозв'язку, за інших видів взаємних зв'язків змінних слід використовувати методи регресійного аналізу.

Рангова кореляція визначається методом Спірмена, що дозволяє статистично досліджувати зв'язок між явищами. Завдяки цьому коефіцієнту обчислюється фактично існуючий рівень паралелізму двох кількісно виражених рядів ознак, і навіть оцінюється тіснота, виявленої зв'язку.

  • що не потребують точного визначення значення кореляційної сили;
  • порівнювані показники мають як кількісні, і атрибутивні значення;
  • рівняння рядів ознак із відкритими варіантами значень.

Метод Спірмена відноситься до методів непараметричного аналізу, тому немає потреби перевіряти нормальність розподілу ознаки. До того ж, він дозволяє порівнювати показники, виражені в різних шкалах. Наприклад, порівняння значень кількості еритроцитів у певному обсязі крові (безперервна шкала) та експертної оцінки, що виражається в балах (порядкова шкала).

На ефективність методу негативно впливає велика різниця між значеннями порівнюваних величин. Неефективний метод і у випадках, коли вимірювана величина характеризується нерівномірним розподілом значень.

Покроковий розрахунок коефіцієнта кореляції в Excel

Розрахунок кореляційного коефіцієнта передбачає послідовне виконання низки математичних операцій.

Наведена вище формула розрахунку коефіцієнта Пірсона, показує наскільки трудомісткий цей процес, якщо виконувати його вручну.
Використання можливостей Excell прискорює процес знаходження коефіцієнта у рази.

Достатньо дотримати нескладний алгоритм дій:

  • введення базової інформації - стовпець значень х і стовпець значень у;
  • в інструментах вибирається та відкривається вкладка «Формули»;
  • у вкладці вибирається «Вставка функції fx»;
  • у діалоговому вікні, що відкрилося, вибирається статистична функція «Коррел», що дозволяє виконати розрахунок кореляційного коефіцієнта між 2 масивами даних;
  • вікно, що відкрилося, вносяться дані: масив 1 - діапазон значень стовпця х (дані необхідно виділити), масив 2 - діапазон значень стовпця у;
  • натискається клавіша "ок", у рядку "значення" з'являється результат розрахунку коефіцієнта;
  • висновок щодо наявності кореляційного зв'язку між 2 масивами даних та її силою.

Коефіцієнт кореляції відбиває ступінь взаємозв'язку між двома показниками. Завжди набуває значення від -1 до 1. Якщо коефіцієнт розташувався близько 0, то говорять про відсутність зв'язку між змінними.

Якщо значення близько до одиниці (від 0,9, наприклад), між спостерігаються об'єктами існує сильна пряма взаємозв'язок. Якщо коефіцієнт близький до іншої крайньої точки діапазону (-1), то між змінними є сильний зворотний зв'язок. Коли значення знаходиться десь посередині від 0 до 1 або від 0 до -1, то йдеться про слабкий зв'язок (прямий або зворотний). Такий взаємозв'язок зазвичай не враховують: вважається, що його немає.

Розрахунок коефіцієнта кореляції в Excel

Розглянемо з прикладу способи розрахунку коефіцієнта кореляції, особливості прямої та зворотної взаємозв'язку між змінними.

Значення показників x та y:

Y – незалежна змінна, x – залежна. Необхідно знайти силу (сильна/слабка) та напрямок (прямий/зворотний) зв'язок між ними. Формула коефіцієнта кореляції виглядає так:


Щоб спростити її розуміння, розіб'ємо кілька нескладних елементів.

Між змінними визначається сильний прямий зв'язок.

Вбудована функція Корел дозволяє уникнути складних розрахунків. Розрахуємо коефіцієнт парної кореляції Excel з її допомогою. Викликаємо майстер функцій. Знаходимо необхідну. Аргументи функції – масив значень y та масив значень х:

Покажемо значення змінних на графіку:


Видно сильний зв'язок між y та х, т.к. лінії йдуть практично паралельно одна одній. Взаємозв'язок прямий: росте y – росте х, зменшується y – зменшується х.



Матриця парних коефіцієнтів кореляції в Excel

Кореляційна матриця є таблицею, на перетині рядків і стовпців якої знаходяться коефіцієнти кореляції між відповідними значеннями. Має сенс її будувати для кількох змінних.

Матриця коефіцієнтів кореляції в Excel будується за допомогою інструмента Кореляція з пакета Аналіз даних.


Між значеннями y та х1 виявлено сильний прямий взаємозв'язок. Між х1 і х2 є сильний зворотний зв'язок. Зв'язок із значеннями в стовпці х3 практично відсутній.