05.03.2024

Как да изчислим коефициента на корелация. Коефициенти на корелация. Използване на Excel за изчисляване на коефициентите на корелация


Забележете!Решението на вашия конкретен проблем ще изглежда подобно на този пример, включително всички таблици и обяснителни текстове по-долу, но като вземе предвид вашите първоначални данни...

Задача:
Има свързана извадка от 26 двойки стойности (x k,y k):

к 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

к 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

к 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Изисква се за изчисляване/начертаване:
- коефициент на корелация;
- тестване на хипотезата за зависимостта на случайните променливи X и Y, при ниво на значимост α = 0,05;
- коефициенти на уравнение на линейна регресия;
- точкова диаграма (корелационно поле) и регресионна линейна графика;

РЕШЕНИЕ:

1. Изчислете коефициента на корелация.

Коефициентът на корелация е показател за взаимното вероятностно влияние на две случайни променливи. Коефициент на корелация Рможе да вземе стойности от -1 преди +1 . Ако абсолютната стойност е по-близо до 1 , то това е доказателство за силна връзка между количествата, а ако е по-близо до 0 - тогава това показва слаба връзка или нейното отсъствие. Ако е абсолютна стойност Ре равно на едно, тогава можем да говорим за функционална връзка между количествата, тоест една величина може да бъде изразена чрез друга с помощта на математическа функция.


Коефициентът на корелация може да се изчисли по следните формули:
н
Σ
k = 1
(x k -M x) 2, σ y 2 =
M x =
1
н
н
Σ
k = 1
xk, мое =

или по формула

Rx,y =
M xy - M x M y
S x S y
(1.4), където:
M x =
1
н
н
Σ
k = 1
xk, мое =
1
н
н
Σ
k = 1
y k , Mxy =
1
н
н
Σ
k = 1
x k y k (1,5)
S x 2 =
1
н
н
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
н
н
Σ
k = 1
y k 2 - M y 2 (1,6)

На практика формулата (1.4) се използва по-често за изчисляване на коефициента на корелация, тъй като изисква по-малко изчисления. Въпреки това, ако ковариацията е била изчислена преди това cov(X,Y), тогава е по-изгодно да се използва формула (1.1), защото В допълнение към самата стойност на ковариацията можете да използвате и резултатите от междинните изчисления.

1.1 Нека изчислим коефициента на корелация, използвайки формула (1.4), за да направим това, изчисляваме стойностите на x k 2, y k 2 и x k y k и ги въвеждаме в таблица 1.

маса 1


к
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Нека изчислим M x с помощта на формула (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25.750000

1.3. Нека изчислим M y по подобен начин.

1.3.1. Нека добавим всички елементи последователно y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Разделете получената сума на броя на пробните елементи

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. По подобен начин изчисляваме M xy.

1.4.1. Нека добавим последователно всички елементи от 6-та колона на таблица 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Разделете получената сума на броя на елементите

20412.83000 / 26 = 785.10885

M xy = 785.108846

1.5. Нека изчислим стойността на S x 2, използвайки формула (1.6.).

1.5.1. Нека добавим последователно всички елементи от 4-та колона на таблица 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Разделете получената сума на броя на елементите

17256.91000 / 26 = 663.72731

1.5.3. Извадете квадрата на M x от последното число, за да получите стойността за S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Нека изчислим стойността на S y 2 с помощта на формула (1.6.).

1.6.1. Нека добавим последователно всички елементи от 5-та колона на таблица 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Разделете получената сума на броя на елементите

24191.84000 / 26 = 930.45538

1.6.3. Извадете квадрата на M y от последното число, за да получите стойността за S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Нека изчислим произведението на величините S x 2 и S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Нека вземем корен квадратен от последното число и ще получим стойността S x S y.

S x S y = 0,36951

1.9. Нека изчислим стойността на коефициента на корелация, използвайки формула (1.4.).

R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028

ОТГОВОР: R x,y = -0,720279

2. Проверяваме значимостта на коефициента на корелация (проверяваме хипотезата за зависимост).

Тъй като оценката на коефициента на корелация се изчислява върху ограничена извадка и следователно може да се отклонява от стойността на популацията, е необходимо да се тества значимостта на коефициента на корелация. Проверката се извършва с t-теста:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Случайна стойност Tследва t-разпределението на Student и с помощта на таблицата на t-разпределението е необходимо да се намери критичната стойност на критерия (t cr.α) при дадено ниво на значимост α. Ако t, изчислено по формула (2.1) по абсолютна стойност се окаже по-малко от t cr.α, тогава няма зависимост между случайните величини X и Y. В противен случай експерименталните данни не противоречат на хипотезата за зависимостта на случайните величини.


2.1. Нека изчислим стойността на t-критерия, като използваме формула (2.1) и получим:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Използвайки таблицата на t-разпределението, определяме критичната стойност на параметъра t cr.α

Желаната стойност на tcr.α се намира в пресечната точка на реда, съответстващ на броя на степените на свобода, и колоната, съответстваща на даденото ниво на значимост α.
В нашия случай броят на степените на свобода е n - 2 = 26 - 2 = 24 и α = 0.05 , което съответства на критичната стойност на критерия t кр.α = 2.064 (виж таблица 2)

таблица 2 t-разпределение

Брой степени на свобода
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Нека сравним абсолютната стойност на t-критерия и t cr.α

Абсолютната стойност на t-критерия е не по-малка от критичната стойност t = 5.08680, t cr.α = 2.064, следователно експериментални данни, с вероятност 0,95(1 - α), не противоречат на хипотезатаза зависимостта на случайните величини X и Y.

3. Изчислете коефициентите на уравнението на линейната регресия.

Уравнението на линейната регресия е уравнение на права линия, което апроксимира (приблизително описва) връзката между случайните променливи X и Y. Ако приемем, че стойността X е свободна и Y зависи от X, тогава регресионното уравнение ще бъде записано като следва


Y = a + b X (3.1), където:

b =Rx,y
σy
σ x
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Коефициентът, изчислен по формула (3.2) bнаречен коефициент на линейна регресия. В някои източници асе нарича постоянен регресионен коефициент и bспоред променливите.

Грешките при прогнозиране на Y за дадена стойност X се изчисляват с помощта на формулите:

Величината σ y/x (формула 3.4) също се нарича остатъчно стандартно отклонение, той характеризира отклонението на стойността Y от регресионната линия, описана от уравнение (3.1) за фиксирана (зададена) стойност на X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Нека вземем корен квадратен от последното число и получим:
S y / S x = 0,55582

3.3 Нека изчислим коефициента bпо формула (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Нека изчислим коефициента aпо формула (3.3)

а = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Нека оценим грешките на регресионното уравнение.

3.5.1 Вземайки корен квадратен от S y 2, получаваме:

= 0.31437
3.5.4 Нека изчислим относителната грешка, използвайки формула (3.5)

δ y/x = (0,31437 / 30,50000) 100% = 1,03073%

4. Изграждаме точкова диаграма (корелационно поле) и регресионна линейна графика.

Точковата диаграма е графично представяне на съответните двойки (x k, y k) като точки в равнина, в правоъгълни координати с осите X и Y. Корелационното поле е едно от графичните представяния на свързана (сдвоена) извадка. Регресионната линейна графика също се начертава в същата координатна система. Мащабите и началните точки на осите трябва да бъдат избрани внимателно, за да се гарантира, че диаграмата е възможно най-ясна.

4.1. Намерете минималния и максималния елемент на пробата X е съответно 18-ти и 15-ти елемент, x min = 22,10000 и x max = 26,60000.

4.2. Откриваме, че минималният и максималният елемент на пробата Y са съответно 2-ри и 18-ти елемент, y min = 29,40000 и y max = 31,60000.

4.3. На оста x изберете начална точка малко вляво от точката x 18 = 22.10000 и такъв мащаб, че точката x 15 = 26.60000 да пасне на оста и останалите точки да са ясно видими.

4.4. На ординатната ос изберете начална точка малко вляво от точката y 2 = 29,40000 и такъв мащаб, че точката y 18 = 31,60000 да пасва на оста и останалите точки да са ясно различими.

4.5. Поставяме x k стойности на абсцисната ос и y k стойности на ординатната ос.

4.6. Нанасяме точките (x 1, y 1), (x 2, y 2),…, (x 26, y 26) върху координатната равнина. Получаваме диаграмата на разсейване (корелационно поле), показана на фигурата по-долу.

4.7. Нека начертаем регресионна линия.

За да направим това, ще намерим две различни точки с координати (x r1, y r1) и (x r2, y r2), удовлетворяващи уравнение (3.6), ще ги начертаем в координатната равнина и ще начертаем права линия през тях. За абсцисата на първата точка приемаме стойността x min = 22,10000. Замествайки стойността x min в уравнение (3.6), получаваме ординатата на първата точка. Така имаме точка с координати (22.10000, 31.96127). По подобен начин получаваме координатите на втората точка, поставяйки стойността x max = 26.60000 като абциса. Втората точка ще бъде: (26.60000, 30.15970).

Регресионната линия е показана на фигурата по-долу в червено

Моля, имайте предвид, че линията на регресия винаги минава през точката на средните стойности на X и Y, т.е. с координати (M x , M y).

Целта на корелационния анализе да се идентифицира оценка на силата на връзката между случайни променливи (характеристики), които характеризират някакъв реален процес.
Проблеми на корелационния анализ:
а) Измерване на степента на съгласуваност (близост, сила, тежест, интензивност) на две или повече явления.
б) Избор на фактори, които оказват най-съществено влияние върху резултантния атрибут, въз основа на измерване на степента на свързаност между явленията. Факторите, които са значими в този аспект, се използват допълнително в регресионния анализ.
в) Откриване на неизвестни причинно-следствени връзки.

Формите на проявление на взаимоотношенията са много разнообразни. Най-често срещаните видове са функционални (пълни) и корелационна (непълна) връзка.
Корелациясе проявява средно за масови наблюдения, когато дадените стойности на зависимата променлива съответстват на определена поредица от вероятностни стойности на независимата променлива. Връзката се нарича корелация, ако всяка стойност на факторната характеристика съответства на добре дефинирана неслучайна стойност на резултантната характеристика.
Визуално представяне на корелационна таблица е корелационното поле. Това е графика, където стойностите на X са нанесени на абсцисната ос, стойностите на Y са нанесени на ординатната ос, а комбинациите от X и Y са показани с точки.По местоположението на точките може да се съди за наличието на връзка.
Индикатори за близост на връзкатадават възможност да се характеризира зависимостта на изменението на резултантния признак от изменението на факторния признак.
По-усъвършенстван индикатор за степента на струпване корелационна връзкае коефициент на линейна корелация. При изчисляването на този показател се вземат предвид не само отклоненията на отделните стойности на дадена характеристика от средната стойност, но и самата величина на тези отклонения.

Ключовите въпроси на тази тема са уравненията на регресионната връзка между ефективната характеристика и обяснителната променлива, методът на най-малките квадрати за оценка на параметрите на регресионния модел, анализ на качеството на полученото регресионно уравнение, конструиране на доверителни интервали за прогнозиране на стойности на ефективната характеристика с помощта на регресионното уравнение.

Пример 2


Система от нормални уравнения.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
За нашите данни системата от уравнения има формата
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
От първото уравнение изразяваме Аи заместваме във второто уравнение:
Получаваме b = -3,46, a = 1379,33
Регресионно уравнение:
y = -3,46 x + 1379,33

2. Изчисляване на параметрите на регресионното уравнение.
Примерни средства.



Примерни отклонения:


Стандартно отклонение


1.1. Коефициент на корелация
Ковариация.

Изчисляваме индикатора за близост на връзката. Този показател е примерният коефициент на линейна корелация, който се изчислява по формулата:

Коефициентът на линейна корелация приема стойности от –1 до +1.
Връзките между характеристиките могат да бъдат слаби и силни (близки). Техните критерии се оценяват по скалата на Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашия пример връзката между черта Y и фактор X е висока и обратна.
Освен това корелационният коефициент на линейната двойка може да се определи чрез регресионния коефициент b:

1.2. Регресионно уравнение(оценка на регресионно уравнение).

Уравнението на линейната регресия е y = -3,46 x + 1379,33

Коефициентът b = -3,46 показва средната промяна на ефективния показател (в мерни единици y) с увеличаване или намаляване на стойността на фактора x за единица измерване. В този пример, с увеличение от 1 единица, y намалява средно с -3,46.
Коефициентът a = 1379.33 формално показва прогнозираното ниво на y, но само ако x = 0 е близо до стойностите на извадката.
Но ако x=0 е далеч от примерните стойности на x, тогава буквалното тълкуване може да доведе до неправилни резултати и дори ако регресионната линия описва наблюдаваните примерни стойности сравнително точно, няма гаранция, че това също ще такъв е случаят при екстраполиране наляво или надясно.
Като заместим подходящите x стойности в регресионното уравнение, можем да определим подравнените (прогнозирани) стойности на показателя за ефективност y(x) за всяко наблюдение.
Връзката между y и x определя знака на регресионния коефициент b (ако > 0 - пряка връзка, в противен случай - обратна). В нашия пример връзката е обратна.
1.3. Коефициент на еластичност.
Не е препоръчително да се използват регресионни коефициенти (в пример b) за пряка оценка на влиянието на факторите върху резултатна характеристика, ако има разлика в мерните единици на резултатния показател y и факторната характеристика x.
За тези цели се изчисляват коефициентите на еластичност и бета коефициентите.
Средният коефициент на еластичност E показва с какъв процент средно ще се промени резултатът в съвкупността приот средната му стойност при промяна на фактора хс 1% от средната му стойност.
Коефициентът на еластичност се намира по формулата:


Коефициентът на еластичност е по-малък от 1. Следователно, ако X се промени с 1%, Y ще се промени с по-малко от 1%. С други думи, влиянието на X върху Y не е значително.
Бета коефициентпоказва с каква част от стойността на стандартното си отклонение ще се промени средната стойност на получената характеристика, когато факторната характеристика се промени със стойността на стандартното си отклонение със стойността на останалите независими променливи, фиксирани на постоянно ниво:

Тези. увеличение на x със стандартното отклонение S x ще доведе до намаляване на средната стойност на Y с 0,74 стандартно отклонение S y .
1.4. Грешка в приближението.
Нека оценим качеството на регресионното уравнение, като използваме грешката на абсолютното приближение. Средна грешка на приближаване - средно отклонение на изчислените стойности от действителните:


Тъй като грешката е по-малка от 15%, това уравнение може да се използва като регресия.
Дисперсионен анализ.
Целта на анализа на дисперсията е да се анализира дисперсията на зависимата променлива:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Където
∑(y i - y cp) 2 - общата сума на квадратите на отклоненията;
∑(y(x) - y cp) 2 - сумата от квадратните отклонения, дължащи се на регресия („обяснено“ или „факториално“);
∑(y - y(x)) 2 - остатъчна сума на квадратите на отклоненията.
Теоретична корелационна връзказа линейна връзка е равен на коефициента на корелация r xy .
За всяка форма на зависимост плътността на връзката се определя с помощта на коефициент на множествена корелация:

Този коефициент е универсален, тъй като отразява близостта на връзката и точността на модела и може да се използва за всякакви форми на връзка между променливи. При конструирането на еднофакторен корелационен модел коефициентът на множествена корелация е равен на коефициента на двойна корелация r xy.
1.6. Коефициент на определяне.
Квадратът на (множествения) коефициент на корелация се нарича коефициент на детерминация, който показва съотношението на вариацията в резултантния атрибут, обяснена с вариацията във факторния атрибут.
Най-често при тълкуване на коефициента на детерминация той се изразява в проценти.
R2 = -0,742 = 0,5413
тези. в 54,13% от случаите промените в x водят до промени в y. С други думи, точността на избора на регресионното уравнение е средна. Останалите 45,87% от промяната на Y се обясняват с фактори, които не са взети предвид в модела.

Библиография

  1. Иконометрия: Учебник / Ред. И.И. Елисеева. – М.: Финанси и статистика, 2001, стр. 34..89.
  2. Магнус Ю.Р., Катишев П.К., Пересецки А.А. Иконометрия. Курс за начинаещи. Урок. – 2-ро изд., рев. – М.: Дело, 1998, с. 17..42.
  3. Семинар по иконометрия: Proc. помощ / I.I. Елисеева, С.В. Куришева, Н.М. Гордеенко и др.; Изд. И.И. Елисеева. – М.: Финанси и статистика, 2001, стр. 5..48.

06.06.2018 16 235 0 Игор

Психология и общество

Всичко в света е взаимосвързано. Всеки човек на нивото на интуицията се опитва да намери връзки между явленията, за да може да им влияе и контролира. Концепцията, която отразява тази връзка, се нарича корелация. Какво означава с прости думи?

Съдържание:

Понятие за корелация

Корелация (от латински “correlatio” - съотношение, връзка)– математически термин, който означава мярка за статистическа вероятностна зависимост между случайни величини (променливи).



Пример:Да вземем два типа взаимоотношения:

  1. Първо- писалка в ръката на човек. В която посока се движи ръката, в тази посока върви и писалката. Ако ръката е в покой, тогава писалката няма да пише. Ако човек го натисне малко по-силно, следата върху хартията ще бъде по-богата. Този тип връзка отразява строга зависимост и не е корелационна. Тази връзка е функционална.
  2. Втори вид– връзката между степента на образование на човека и четенето на литература. Не се знае предварително кои хора четат повече: с или без висше образование. Тази връзка е случайна или стохастична, тя се изучава от статистическата наука, която се занимава изключително с масови явления. Ако статистическото изчисление позволява да се докаже връзката между нивото на образование и четенето на литература, това ще даде възможност да се направят всякакви прогнози и да се предвиди вероятностното настъпване на събития. В този пример с голяма степен на вероятност може да се твърди, че хората с висше образование, тези, които са по-образовани, четат повече книги. Но тъй като връзката между тези параметри не е функционална, може да грешим. Винаги можете да изчислите вероятността за такава грешка, която ще бъде очевидно малка и се нарича ниво на статистическа значимост (p).

Примери за връзки между природните явления са:хранителната верига в природата, човешкото тяло, което се състои от системи от органи, които са свързани помежду си и функционират като едно цяло.

Всеки ден се сблъскваме с взаимовръзки в ежедневието: между времето и доброто настроение, правилното формулиране на целите и тяхното постигане, позитивното отношение и късмета, чувството за щастие и финансовото благополучие. Но ние търсим връзки, разчитайки не на математически изчисления, а на митове, интуиция, суеверия и празни спекулации. Тези явления са много трудни за превеждане на математически език, изразяване в числа и измерване. Друг е въпросът, когато анализираме явления, които могат да бъдат изчислени и представени под формата на числа. В този случай можем да дефинираме корелация с помощта на коефициента на корелация (r), който отразява силата, степента, близостта и посоката на корелацията между случайните променливи.

Силна корелация между случайни променливи- доказателство за наличието на някаква статистическа връзка конкретно между тези явления, но тази връзка не може да се пренесе върху същите явления, а за различна ситуация. Често изследователите, след като са получили значителна корелация между две променливи в своите изчисления, въз основа на простотата на корелационния анализ, правят фалшиви интуитивни предположения за съществуването на причинно-следствени връзки между характеристиките, забравяйки, че коефициентът на корелация е вероятностен по природа .

Пример:броят на пострадалите при заледяване и броя на пътнотранспортните произшествия с моторни превозни средства. Тези количества ще корелират помежду си, въпреки че те абсолютно не са взаимосвързани, а имат връзка само с общата причина за тези случайни събития - черен лед. Ако анализът не разкрие връзка между явленията, това все още не е доказателство за липсата на зависимост между тях, която може да бъде сложна нелинейна и да не се разкрива чрез корелационни изчисления.




Първият, който въведе понятието корелация в научна употреба, беше французите палеонтологът Жорж Кювие. През 18 век той извежда закона за корелация на частите и органите на живите организми, благодарение на който става възможно да се възстанови външният вид на цялото изкопаемо същество, животно, от намерените части на тялото (останките). В статистиката терминът корелация е използван за първи път през 1886 г. от английски учен Франсис Галтън. Но той не можа да изведе точната формула за изчисляване на коефициента на корелация, но неговият ученик го направи - известният математик и биолог Карл Пиърсън.

Видове корелация

По важност– високо значими, значими и незначителни.

Видове

на какво е равно r

Много значимо

r съответства на нивото на статистическа значимост p<=0,01

Значително

r съответства на p<=0,05

Незначителен

r не достига p>0,1

Отрицателна(намаляването на стойността на една променлива води до повишаване на нивото на друга: колкото повече фобии има човек, толкова по-малка е вероятността той да заеме лидерска позиция) и положителен (ако увеличението на една променлива води до увеличение на нивото на друго: колкото по-нервен си, толкова по-вероятно е да се разболееш). Ако няма връзка между променливите, тогава такава корелация се нарича нулева.

Линеен(когато една стойност нараства или намалява, втората също нараства или намалява) и нелинейни (когато при промяна на една стойност естеството на промяната на втората не може да се опише с помощта на линейна връзка, тогава се прилагат други математически закони - полиномиални, хиперболични взаимоотношения).

По сила.

Коефициенти




В зависимост от това към коя скала принадлежат изследваните променливи, се изчисляват различни видове коефициенти на корелация:

  1. Коефициентът на корелация на Pearson, коефициентът на линейна корелация по двойки или корелацията на момента на продукта се изчисляват за променливи с интервални и мащабни измервателни скали.
  2. Коефициент на рангова корелация на Spearman или Kendall - когато поне една от величините има ординална скала или не е нормално разпределена.
  3. Точков бисериален коефициент на корелация (коефициент на корелация на знака на Фехнер) – ако една от двете величини е дихотомна.
  4. Коефициент на корелация с четири полета (коефициент на множествена рангова корелация (конкордация) – ако две променливи са дихотомични.

Коефициентът на Pearson се отнася за параметрични корелационни показатели, всички останали са непараметрични.

Стойността на коефициента на корелация варира от -1 до +1. При пълна положителна корелация, r = +1, при пълна отрицателна корелация, r = -1.

Формула и изчисление





Примери

Необходимо е да се определи връзката между две променливи: нивото на интелектуално развитие (според тестовете) и броя на закъсненията на месец (според записите в учебния дневник) сред учениците.

Първоначалните данни са представени в таблицата:

IQ данни (x)

Данни за броя на закъсненията (y)

Сума

1122

Средно аритметично

112,2


За да се даде правилна интерпретация на получения показател, е необходимо да се анализира знакът на корелационния коефициент (+ или -) и неговата абсолютна стойност (по модул).

В съответствие с таблицата за класификация на коефициента на корелация по сила, заключаваме, че rxy = -0,827 е силна отрицателна корелация. По този начин броят на закъснелите ученици има много силна зависимост от нивото им на интелектуално развитие. Може да се каже, че учениците с високо ниво на IQ закъсняват за часовете по-рядко от учениците с ниско ниво на IQ.



Коефициентът на корелация може да се използва както от учени за потвърждаване или опровергаване на предположението за зависимостта на две величини или явления и измерване на нейната сила и значимост, така и от ученици за провеждане на емпирични и статистически изследвания по различни теми. Трябва да се помни, че този индикатор не е идеален инструмент; той се изчислява само за измерване на силата на линейна връзка и винаги ще бъде вероятностна стойност, която има определена грешка.

Корелационният анализ се използва в следните области:

  • икономическа наука;
  • астрофизика;
  • социални науки (социология, психология, педагогика);
  • агрохимия;
  • металургия;
  • индустрия (за контрол на качеството);
  • хидробиология;
  • биометрия и др.

Причини за популярността на метода на корелационния анализ:

  1. Относителната простота на изчисляване на коефициентите на корелация не изисква специално математическо образование.
  2. Позволява ви да изчислите връзките между масови случайни променливи, които са обект на анализ в статистическата наука. В тази връзка този метод е широко разпространен в областта на статистическите изследвания.

Надявам се, че сега ще можете да разграничите функционална връзка от корелационна връзка и ще знаете, че когато чуете по телевизията или прочетете в пресата за корелация, това означава положителна и доста значима взаимозависимост между две явления.

Различни знаци могат да бъдат свързани помежду си.

Между тях има 2 вида връзки:

  • функционални;
  • корелация.

Корелацияпреведено на руски не е нищо повече от връзка.
В случай на корелационна връзка може да се проследи съответствието на няколко стойности на една характеристика с няколко стойности на друга характеристика. Като примери можем да разгледаме установените корелации между:

  • дължината на лапите, вратовете и човките на птици като чапли, жерави и щъркели;
  • показатели за телесна температура и пулс.

За повечето биомедицински процеси наличието на този тип връзка е статистически доказано.

Статистическите методи позволяват да се установи фактът на наличието на взаимозависимост на характеристиките. Използването на специални изчисления за това води до установяване на коефициенти на корелация (мерки за свързаност).

Такива изчисления се наричат корелационен анализ.Извършва се, за да се потвърди зависимостта на 2 променливи (случайни променливи) една от друга, която се изразява с коефициента на корелация.

Използването на метода на корелация ви позволява да решите няколко проблема:

  • установява наличието на връзка между анализираните параметри;
  • знанието за наличието на корелация ни позволява да решаваме проблеми с прогнозирането. По този начин има реална възможност да се предвиди поведението на даден параметър въз основа на анализ на поведението на друг корелиращ параметър;
  • извършване на класификация въз основа на избора на признаци, независими един от друг.

За променливи:

  • спрямо ординалната скала се изчислява коефициентът на Спирман;
  • свързани с интервалната скала – коефициент на Пиърсън.

Това са най-често използваните параметри, освен тях има и други.

Стойността на коефициента може да бъде изразена положително или отрицателно.

В първия случай, когато стойността на една променлива се увеличава, се наблюдава увеличение на втората. Ако коефициентът е отрицателен, моделът е обърнат.

За какво е коефициентът на корелация?

Свързаните една с друга случайни променливи могат да имат напълно различно естество на тази връзка. Не е задължително да е функционален, когато може да се проследи пряка връзка между количествата. Най-често и двете величини се влияят от цял ​​набор от различни фактори; в случаите, когато те са общи за двете величини, се наблюдава формирането на свързани модели.

Това означава, че статистически доказаният факт за наличието на връзка между количествата не потвърждава, че е установена причината за наблюдаваните промени. Като правило изследователят заключава, че има две взаимосвързани последици.

Свойства на коефициента на корелация

Тази статистическа характеристика има следните свойства:

  • стойността на коефициента варира от -1 до +1. Колкото по-близо до екстремните стойности, толкова по-силна е положителната или отрицателната връзка между линейните параметри. При нулева стойност говорим за липса на корелация между характеристиките;
  • положителна стойност на коефициента показва, че ако стойността на една характеристика се увеличи, се наблюдава увеличение на втората (положителна корелация);
  • отрицателна стойност – при повишаване на стойността на една характеристика се наблюдава намаляване на втората (отрицателна корелация);
  • приближаването на стойността на индикатора до крайните точки (или -1, или +1) показва наличието на много силна линейна връзка;
  • показателите на дадена характеристика могат да се променят, докато стойността на коефициента остава непроменена;
  • коефициентът на корелация е безразмерна величина;
  • наличието на корелация не потвърждава непременно причинно-следствена връзка.

Стойности на коефициента на корелация

Силата на корелацията може да се характеризира чрез прибягване до скалата на Cheldock, в която определена числена стойност съответства на качествена характеристика.

В случай на положителна корелация със стойността:

  • 0-0,3 – корелацията е много слаба;
  • 0,3-0,5 – слаб;
  • 0,5-0,7 – средна якост;
  • 0,7-0,9 – високо;
  • 0,9-1 – много висока сила на корелация.

Скалата може да се използва и за отрицателна корелация. В този случай качествените характеристики се заменят с противоположни.

Можете да използвате опростената скала на Cheldock, която разграничава само 3 степени на корелационна сила:

  • много силен - показатели ±0,7 - ±1;
  • средно - показатели ±0,3 - ±0,699;
  • много слаб - показатели 0 - ±0.299.

Този статистически показател позволява не само да се провери предположението за съществуването на линейна връзка между характеристиките, но и да се установи нейната сила.

Видове коефициент на корелация

Коефициентите на корелация могат да бъдат класифицирани по знак и стойност:

  • положителен;
  • нула;
  • отрицателен.

В зависимост от анализираните стойности се изчислява коефициентът:

  • Pearson;
  • Копиеносец;
  • Кендал;
  • знаци на Фехнер;
  • съгласуване или множествена рангова корелация.

Коефициентът на корелация на Pearson се използва за установяване на директни връзки между абсолютните стойности на променливите. В този случай разпределението на двете серии от променливи трябва да се доближава до нормалното. Сравняваните променливи трябва да се различават по същия брой различни характеристики. Скалата, представяща променливите, трябва да бъде интервална или съотношителна скала.

  • точно установяване на силата на корелация;
  • сравнение на количествени характеристики.

Има няколко недостатъка при използването на линейния коефициент на корелация на Pearson:

  • методът е нестабилен в случай на отклонения от числови стойности;
  • Използвайки този метод, е възможно да се определи силата на корелация само за линейна връзка; за други видове взаимни връзки на променливи трябва да се използват методи на регресионен анализ.

Ранговата корелация се определя по метода на Спирман, който позволява статистически да се изследва връзката между явленията. Благодарение на този коефициент се изчислява действителната степен на паралелност на две количествено изразени серии от характеристики, както и се оценява плътността на идентифицираната връзка.

  • не изисква прецизно определяне на стойността на корелационната сила;
  • сравняваните показатели имат както количествено, така и атрибутивно значение;
  • сравнение на серии от характеристики с отворени варианти на стойности.

Методът на Spearman е непараметричен метод за анализ, така че не е необходимо да се проверява нормалността на разпределението на дадена характеристика. Освен това ви позволява да сравнявате показатели, изразени в различни скали. Например сравнение на броя на червените кръвни клетки в определен обем кръв (непрекъсната скала) и експертна оценка, изразена в точки (порядъчна скала).

Ефективността на метода се влияе отрицателно от голяма разлика между стойностите на сравняваните количества. Методът не е ефективен и в случаите, когато измерената стойност се характеризира с неравномерно разпределение на стойностите.

Стъпка по стъпка изчисляване на коефициента на корелация в Excel

Изчисляването на коефициента на корелация включва последователно извършване на редица математически операции.

Горната формула за изчисляване на коефициента на Pearson показва колко трудоемък е този процес, ако се извършва ръчно.
Използването на възможностите на Excel значително ускорява процеса на намиране на коефициента.

Достатъчно е да следвате прост алгоритъм от действия:

  • въвеждане на основна информация - колона от x стойности и колона от y стойности;
  • в инструментите изберете и отворете раздела „Формули“;
  • в раздела, който се отваря, изберете „Вмъкване на fx функция“;
  • в диалоговия прозорец, който се отваря, изберете статистическата функция „Corel“, която ви позволява да изчислите коефициента на корелация между 2 набора от данни;
  • прозорецът, който се отваря, въведете данните: масив 1 – диапазон от стойности на колона x (данните трябва да бъдат избрани), масив 2 – диапазон от стойности на колона y;
  • натиска се клавишът „ok“, резултатът от изчисляването на коефициента се появява в реда „стойност“;
  • заключение относно наличието на корелация между 2 набора от данни и нейната сила.

Коефициентът на корелация отразява степента на връзка между два показателя. Той винаги приема стойност от -1 до 1. Ако коефициентът е разположен около 0, тогава няма връзка между променливите.

Ако стойността е близка до единица (от 0,9, например), тогава има силна пряка връзка между наблюдаваните обекти. Ако коефициентът е близо до другата крайна точка на диапазона (-1), тогава има силна обратна връзка между променливите. Когато стойността е някъде между 0 до 1 или 0 до -1, тогава говорим за слаба връзка (директна или обратна). Тази връзка обикновено не се взема предвид: смята се, че тя не съществува.

Изчисляване на коефициент на корелация в Excel

Нека да разгледаме пример за методи за изчисляване на коефициента на корелация, характеристиките на преките и обратните връзки между променливите.

Стойности на индикаторите x и y:

Y е независима променлива, x е зависима променлива. Необходимо е да се намери силата (силна/слаба) и посоката (права/обратна) на връзката между тях. Формулата на коефициента на корелация изглежда така:


За по-лесно разбиране, нека го разделим на няколко прости елемента.

Между променливите се установява силна пряка връзка.

Вградената функция CORREL избягва сложните изчисления. Нека изчислим коефициента на корелация на двойката в Excel, като го използваме. Обадете се на съветника за функции. Ние намираме правилния. Аргументите на функцията са масив от y стойности и масив от x стойности:

Нека да покажем стойностите на променливите на графиката:


Вижда се силна връзка между y и x, т.к линиите вървят почти успоредно една на друга. Връзката е пряка: y нараства - x нараства, y намалява - x намалява.



Матрица на коефициента на корелация на двойки в Excel

Корелационната матрица е таблица, в пресечната точка на редове и колони, на която са разположени коефициентите на корелация между съответните стойности. Има смисъл да се изгради за няколко променливи.

Матрицата на коефициентите на корелация в Excel се изгражда с помощта на инструмента “Correlation” от пакета “Data Analysis”.


Намерена е силна пряка връзка между стойностите на y и x1. Има силна обратна връзка между x1 и x2. На практика няма връзка със стойностите в колона x3.