05.03.2024

Comment calculer le coefficient de corrélation. Coefficients de corrélation. Utiliser Excel pour calculer les coefficients de corrélation


Avis! La solution à votre problème spécifique ressemblera à cet exemple, comprenant tous les tableaux et textes explicatifs ci-dessous, mais en tenant compte de vos données initiales...

Tâche:
Il existe un échantillon connexe de 26 paires de valeurs (x k,y k) :

k 1 2 3 4 5 6 7 8 9 10
xk 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
ouais 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
xk 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
ouais 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
xk 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
ouais 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Nécessaire pour calculer/tracer :
- Coefficient de corrélation;
- tester l'hypothèse de dépendance des variables aléatoires X et Y, au niveau de signification α = 0,05 ;
- coefficients d'équation de régression linéaire ;
- diagramme de dispersion (champ de corrélation) et graphique linéaire de régression ;

SOLUTION:

1. Calculez le coefficient de corrélation.

Le coefficient de corrélation est un indicateur de l'influence probabiliste mutuelle de deux variables aléatoires. Coefficient de corrélation R. peut prendre des valeurs de -1 avant +1 . Si la valeur absolue est plus proche de 1 , alors cela témoigne d'un lien fort entre les quantités, et si plus proche de 0 - alors cela indique une connexion faible ou son absence. Si valeur absolue R. est égal à un, alors nous pouvons parler d'un lien fonctionnel entre les quantités, c'est-à-dire qu'une quantité peut être exprimée par une autre à l'aide d'une fonction mathématique.


Le coefficient de corrélation peut être calculé à l'aide des formules suivantes :
n
Σ
k = 1
(x k -M x) 2 , σ y 2 =
M x =
1
n
n
Σ
k = 1
xk, Mon =

ou par formule

Rx,y =
M xy - M x M y
S x S y
(1.4), où :
M x =
1
n
n
Σ
k = 1
xk, Mon =
1
n
n
Σ
k = 1
ouais, Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1.6)

En pratique, la formule (1.4) est plus souvent utilisée pour calculer le coefficient de corrélation car cela nécessite moins de calculs. Cependant, si la covariance a été calculée précédemment cov(X,Y), alors il est plus rentable d'utiliser la formule (1.1), car En plus de la valeur de covariance elle-même, vous pouvez également utiliser les résultats de calculs intermédiaires.

1.1 Calculons le coefficient de corrélation à l'aide de la formule (1.4), pour ce faire, nous calculons les valeurs de x k 2, y k 2 et x k y k et les inscrivons dans le tableau 1.

Tableau 1


k
xk ouais xk 2 ouais 2 xkouais
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Calculons M x en utilisant la formule (1.5).

1.2.1. xk

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

Mx = 25,750000

1.3. Calculons M y de la même manière.

1.3.1. Ajoutons tous les éléments séquentiellement ouais

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Divisez la somme obtenue par le nombre d'éléments de l'échantillon

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. De la même manière, nous calculons M xy.

1.4.1. Ajoutons séquentiellement tous les éléments de la 6ème colonne du tableau 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Divisez la somme obtenue par le nombre d'éléments

20412.83000 / 26 = 785.10885

Mxy = 785,108846

1.5. Calculons la valeur de S x 2 à l'aide de la formule (1.6.).

1.5.1. Ajoutons séquentiellement tous les éléments de la 4ème colonne du tableau 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Divisez la somme obtenue par le nombre d'éléments

17256.91000 / 26 = 663.72731

1.5.3. Soustrayez le carré de M x du dernier nombre pour obtenir la valeur de S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Calculons la valeur de S y 2 en utilisant la formule (1.6.).

1.6.1. Ajoutons séquentiellement tous les éléments de la 5ème colonne du tableau 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Divisez la somme obtenue par le nombre d'éléments

24191.84000 / 26 = 930.45538

1.6.3. Soustrayez le carré de M y du dernier nombre pour obtenir la valeur de S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Calculons le produit des quantités S x 2 et S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Prenons la racine carrée du dernier nombre et obtenons la valeur S x S y.

S x S y = 0,36951

1.9. Calculons la valeur du coefficient de corrélation à l'aide de la formule (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

RÉPONSE : Rx,y = -0,720279

2. On vérifie la significativité du coefficient de corrélation (on vérifie l'hypothèse de dépendance).

Étant donné que l’estimation du coefficient de corrélation est calculée sur un échantillon fini et peut donc s’écarter de sa valeur de population, il est nécessaire de tester la signification du coefficient de corrélation. La vérification est effectuée à l'aide du test t :

t =
Rx,y
n-2
1 - R 2 x,y
(2.1)

Valeur aléatoire t suit la distribution t de Student et à l'aide du tableau de distribution t, il est nécessaire de trouver la valeur critique du critère (t cr.α) à un niveau de signification α donné. Si t calculé par la formule (2.1) en valeur absolue s'avère inférieur à t cr.α , alors il n'y a aucune dépendance entre les variables aléatoires X et Y. Sinon, les données expérimentales ne contredisent pas l'hypothèse de dépendance à l'égard de variables aléatoires.


2.1. Calculons la valeur du critère t à l'aide de la formule (2.1) et obtenons :
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. À l'aide du tableau de distribution t, nous déterminons la valeur critique du paramètre t cr.α

La valeur souhaitée de tcr.α se situe à l'intersection de la ligne correspondant au nombre de degrés de liberté et de la colonne correspondant au niveau de signification α donné.
Dans notre cas, le nombre de degrés de liberté est n - 2 = 26 - 2 = 24 et α = 0.05 , ce qui correspond à la valeur critique du critère t cr.α = 2.064 (voir tableau 2)

Tableau 2 distribution t

Nombre de degrés de liberté
(n-2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Comparons la valeur absolue du critère t et t cr.α

La valeur absolue du critère t n'est pas inférieure à la valeur critique t = 5,08680, t cr.α = 2,064, donc données expérimentales, avec probabilité 0,95(1 - α), ne contredit pas l'hypothèse sur la dépendance des variables aléatoires X et Y.

3. Calculez les coefficients de l'équation de régression linéaire.

Une équation de régression linéaire est une équation d'une ligne droite qui se rapproche (décrit approximativement) la relation entre les variables aléatoires X et Y. Si nous supposons que la valeur X est libre et que Y dépend de X, alors l'équation de régression s'écrira sous la forme suit


Y = a + b X (3.1), où :

b =Rx,y
σy
x
= Rx,y
S y
S x
(3.2),
a = M y - b M x (3.3)

Le coefficient calculé selon la formule (3.2) b appelé coefficient de régression linéaire. Dans certaines sources un est appelé coefficient de régression constant et b selon les variables.

Les erreurs de prédiction de Y pour une valeur donnée X sont calculées à l'aide des formules :

La quantité σ y/x (formule 3.4) est aussi appelée écart type résiduel, il caractérise l'écart de la valeur Y par rapport à la droite de régression décrite par l'équation (3.1) pour une valeur fixe (donnée) de X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Prenons la racine carrée du dernier nombre et obtenons :
S y / S x = 0,55582

3.3 Calculons le coefficient b selon la formule (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Calculons le coefficient a selon la formule (3.3)

un = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Estimons les erreurs de l'équation de régression.

3.5.1 En prenant la racine carrée de S y 2 on obtient :

= 0.31437
3.5.4 Calculons l'erreur relative en utilisant la formule (3.5)

δ y/x = (0,31437 / 30,50000)100 % = 1,03073 %

4. Nous construisons un diagramme de dispersion (champ de corrélation) et un graphique linéaire de régression.

Un nuage de points est une représentation graphique de paires correspondantes (x k, y k) sous forme de points sur un plan, en coordonnées rectangulaires avec les axes X et Y. Le champ de corrélation est l'une des représentations graphiques d'un échantillon associé (paire). Le graphique linéaire de régression est également tracé dans le même système de coordonnées. Les échelles et les points de départ sur les axes doivent être choisis avec soin pour garantir que le diagramme soit aussi clair que possible.

4.1. Trouvez l'élément minimum et maximum de l'échantillon X est respectivement le 18ème et le 15ème élément, x min = 22,10000 et x max = 26,60000.

4.2. Nous trouvons que l'élément minimum et maximum de l'échantillon Y sont respectivement les 2ème et 18ème éléments, y min = 29,40000 et y max = 31,60000.

4.3. Sur l'axe des x, sélectionnez un point de départ légèrement à gauche du point x 18 = 22,10000, et une échelle telle que le point x 15 = 26,60000 s'adapte sur l'axe et que les points restants soient clairement visibles.

4.4. Sur l'axe des ordonnées, sélectionnez un point de départ légèrement à gauche du point y 2 = 29,40000, et une échelle telle que le point y 18 = 31,60000 s'adapte sur l'axe et que les points restants soient clairement distinguables.

4.5. On place les valeurs x k sur l'axe des abscisses, et les valeurs y k sur l'axe des ordonnées.

4.6. Nous traçons les points (x 1, y 1), (x 2, y 2),…, (x 26, y 26) sur le plan de coordonnées. Nous obtenons le diagramme de dispersion (champ de corrélation) présenté dans la figure ci-dessous.

4.7. Traçons une ligne de régression.

Pour ce faire, nous trouverons deux points différents dont les coordonnées (x r1, y r1) et (x r2, y r2) satisfont à l'équation (3.6), les tracerons sur le plan de coordonnées et tracerons une ligne droite à travers eux. Comme abscisse du premier point, on prend la valeur x min = 22,10000. En substituant la valeur x min dans l'équation (3.6), on obtient l'ordonnée du premier point. Ainsi, nous avons un point de coordonnées (22.10000, 31.96127). De la même manière, on obtient les coordonnées du deuxième point en mettant en abscisse la valeur x max = 26,60000. Le deuxième point sera : (26.60000, 30.15970).

La droite de régression est représentée dans la figure ci-dessous en rouge

Veuillez noter que la droite de régression passe toujours par le point des valeurs moyennes de X et Y, c'est-à-dire avec des coordonnées (M x , M y).

Le but de l’analyse de corrélation consiste à identifier une estimation de la force de la connexion entre des variables aléatoires (caractéristiques) qui caractérisent un processus réel.
Problèmes d'analyse de corrélation:
a) Mesurer le degré de cohérence (proximité, force, gravité, intensité) de deux ou plusieurs phénomènes.
b) Sélection des facteurs qui ont l'impact le plus significatif sur l'attribut résultant, sur la base de la mesure du degré de connectivité entre les phénomènes. Les facteurs significatifs à cet égard sont utilisés plus en détail dans l'analyse de régression.
c) Détection de relations causales inconnues.

Les formes de manifestation des relations sont très diverses. Les types les plus courants sont fonctionnels (complets) et connexion de corrélation (incomplète).
Corrélation se manifeste en moyenne pour les observations de masse, lorsque les valeurs données de la variable dépendante correspondent à une certaine série de valeurs probabilistes de la variable indépendante. La relation est appelée corrélation, si chaque valeur de la caractéristique factorielle correspond à une valeur non aléatoire bien définie de la caractéristique résultante.
Une représentation visuelle d'une table de corrélation est le champ de corrélation. Il s'agit d'un graphique où les valeurs X sont tracées sur l'axe des abscisses, les valeurs Y sont tracées sur l'axe des ordonnées et les combinaisons de X et Y sont représentées par des points. Par l'emplacement des points, on peut juger de la présence. d'une connexion.
Indicateurs de proximité de la connexion permettent de caractériser la dépendance de la variation du trait résultant sur la variation du trait facteur.
Un indicateur plus avancé du degré d’encombrement connexion de corrélation est coefficient de corrélation linéaire. Lors du calcul de cet indicateur, non seulement les écarts des valeurs individuelles d'une caractéristique par rapport à la moyenne sont pris en compte, mais également l'ampleur même de ces écarts.

Les questions clés de ce sujet sont les équations de la relation de régression entre la caractéristique effective et la variable explicative, la méthode des moindres carrés pour estimer les paramètres du modèle de régression, l'analyse de la qualité de l'équation de régression résultante, la construction d'intervalles de confiance pour prédire le valeurs de la caractéristique effective à l'aide de l'équation de régression.

Exemple 2


Système d'équations normales.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑yx
Pour nos données, le système d’équations a la forme
30a + 5763b = 21460
5763 une + 1200261 b = 3800360
A partir de la première équation on exprime UN et remplacez dans la deuxième équation :
On obtient b = -3,46, a = 1379,33
Équation de régression:
y = -3,46 x + 1379,33

2. Calcul des paramètres de l'équation de régression.
Échantillon signifie.



Exemples d'écarts :


Écart-type


1.1. Coefficient de corrélation
Covariance.

Nous calculons l'indicateur de proximité de la connexion. Cet indicateur est un exemple de coefficient de corrélation linéaire, calculé par la formule :

Le coefficient de corrélation linéaire prend des valeurs de –1 à +1.
Les liens entre les caractéristiques peuvent être faibles et forts (étroits). Leurs critères sont évalués sur l'échelle de Chaddock :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dans notre exemple, la relation entre le trait Y et le facteur X est élevée et inverse.
De plus, le coefficient de corrélation linéaire des paires peut être déterminé grâce au coefficient de régression b :

1.2. Équation de régression(estimation de l'équation de régression).

L'équation de régression linéaire est y = -3,46 x + 1379,33

Le coefficient b = -3,46 montre l'évolution moyenne de l'indicateur effectif (en unités de mesure y) avec une augmentation ou une diminution de la valeur du facteur x par unité de sa mesure. Dans cet exemple, avec une augmentation de 1 unité, y diminue de -3,46 en moyenne.
Le coefficient a = 1379,33 montre formellement le niveau prédit de y, mais seulement si x = 0 est proche des valeurs de l'échantillon.
Mais si x=0 est loin des valeurs d'échantillon de x, alors une interprétation littérale peut conduire à des résultats incorrects, et même si la droite de régression décrit assez précisément les valeurs d'échantillon observées, rien ne garantit que cela le sera également. être le cas lors d’une extrapolation à gauche ou à droite.
En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.
La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Dans notre exemple, la connexion est inversée.
1.3. Coefficient d'élasticité.
Il n'est pas conseillé d'utiliser des coefficients de régression (dans l'exemple b) pour évaluer directement l'influence de facteurs sur une caractéristique résultante s'il existe une différence dans les unités de mesure de l'indicateur résultant y et de la caractéristique factorielle x.
À ces fins, des coefficients d'élasticité et des coefficients bêta sont calculés.
Le coefficient d'élasticité moyen E montre de quel pourcentage en moyenne le résultat changera dans l'ensemble à de sa valeur moyenne lorsque le facteur change X de 1% de sa valeur moyenne.
Le coefficient d'élasticité est trouvé par la formule :


Le coefficient d'élasticité est inférieur à 1. Par conséquent, si X change de 1 %, Y changera de moins de 1 %. Autrement dit, l’influence de X sur Y n’est pas significative.
Coefficient bêta montre de quelle partie de la valeur de son écart type la valeur moyenne de la caractéristique résultante changera lorsque la caractéristique factorielle change de la valeur de son écart type avec la valeur des variables indépendantes restantes fixées à un niveau constant :

Ceux. une augmentation de x de l'écart type S x entraînera une diminution de la valeur moyenne de Y de 0,74 écart type S y .
1.4. Erreur d'approximation.
Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue. Erreur d'approximation moyenne - écart moyen des valeurs calculées par rapport aux valeurs réelles :


L’erreur étant inférieure à 15 %, cette équation peut être utilisée comme régression.
Analyse de variance.
Le but de l'analyse de variance est d'analyser la variance de la variable dépendante :
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2

∑(y i - y cp) 2 - somme totale des écarts au carré ;
∑(y(x) - y cp) 2 - la somme des carrés des écarts dus à la régression (« expliquée » ou « factorielle ») ;
∑(y - y(x)) 2 - somme résiduelle des carrés des écarts.
Relation de corrélation théorique pour une connexion linéaire est égal au coefficient de corrélation r xy .
Pour toute forme de dépendance, l'étanchéité de la connexion est déterminée à l'aide de coefficient de corrélation multiple:

Ce coefficient est universel, car il reflète l’étroitesse de la relation et la précision du modèle, et peut également être utilisé pour toute forme de connexion entre variables. Lors de la construction d'un modèle de corrélation à un facteur, le coefficient de corrélation multiple est égal au coefficient de corrélation de paire r xy.
1.6. Coefficient de détermination.
Le carré du coefficient de corrélation (multiple) est appelé coefficient de détermination, qui montre la proportion de variation de l'attribut résultant expliquée par la variation de l'attribut facteur.
Le plus souvent, lors de l'interprétation du coefficient de détermination, celui-ci est exprimé en pourcentage.
R2 = -0,742 = 0,5413
ceux. dans 54,13 % des cas, les modifications de x entraînent des modifications de y. En d’autres termes, la précision du choix de l’équation de régression est moyenne. Les 45,87 % restants de la variation de Y s’expliquent par des facteurs non pris en compte dans le modèle.

Bibliographie

  1. Économétrie : Manuel / Ed. I.I. Eliseeva. – M. : Finances et Statistiques, 2001, p. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Économétrie. Cours débutant. Didacticiel. – 2e éd., rév. – M. : Delo, 1998, p. 17..42.
  3. Atelier d'économétrie : Proc. allocation / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko et autres ; Éd. I.I. Eliseeva. – M. : Finances et Statistiques, 2001, p. 5..48.

06.06.2018 16 235 0 Igor

Psychologie et société

Tout dans le monde est interconnecté. Chaque personne, au niveau de l'intuition, essaie de trouver des relations entre les phénomènes afin de pouvoir les influencer et les contrôler. Le concept qui reflète cette relation est appelé corrélation. Qu’est-ce que cela signifie en termes simples ?

Contenu:

Concept de corrélation

Corrélation (du latin « correlatio » – rapport, relation)– un terme mathématique qui désigne une mesure de dépendance statistique probabiliste entre des quantités aléatoires (variables).



Exemple: Prenons deux types de relations :

  1. D'abord- un stylo dans la main d'une personne. Dans quelle direction la main se déplace, dans quelle direction va le stylo. Si la main est au repos, le stylo n’écrira pas. Si une personne appuie un peu plus fort, la marque sur le papier sera plus riche. Ce type de relation reflète une stricte dépendance et n’est pas corrélationnel. Cette relation est fonctionnelle.
  2. Deuxième type– la relation entre le niveau d’éducation d’une personne et la lecture de littérature. On ne sait pas à l’avance quelles personnes lisent le plus : celles qui ont fait des études supérieures ou celles qui n’en ont pas fait. Cette connexion est aléatoire ou stochastique ; elle est étudiée par la science statistique, qui s'intéresse exclusivement aux phénomènes de masse. Si un calcul statistique permet de prouver la corrélation entre le niveau d'éducation et la lecture de la littérature, alors cela permettra de faire des prévisions et de prédire la survenance probabiliste d'événements. Dans cet exemple, avec un degré de probabilité élevé, on peut affirmer que les personnes ayant fait des études supérieures, celles qui sont plus instruites, lisent davantage de livres. Mais comme la connexion entre ces paramètres n’est pas fonctionnelle, on peut se tromper. Vous pouvez toujours calculer la probabilité d'une telle erreur, qui sera clairement faible et est appelée niveau de signification statistique (p).

Des exemples de relations entre phénomènes naturels sont : la chaîne alimentaire dans la nature, le corps humain, qui est constitué de systèmes organiques interconnectés et fonctionnant comme un tout.

Chaque jour, nous rencontrons des corrélations dans la vie de tous les jours : entre la météo et la bonne humeur, la formulation correcte des objectifs et leur réalisation, une attitude positive et la chance, un sentiment de bonheur et de bien-être financier. Mais nous recherchons des liens, en nous appuyant non sur des calculs mathématiques, mais sur des mythes, des intuitions, des superstitions et de vaines spéculations. Ces phénomènes sont très difficiles à traduire en langage mathématique, à exprimer en chiffres et à mesurer. C’est une autre affaire quand on analyse des phénomènes qui peuvent être calculés et présentés sous forme de chiffres. Dans ce cas, nous pouvons définir la corrélation en utilisant le coefficient de corrélation (r), qui reflète la force, le degré, la proximité et la direction de la corrélation entre les variables aléatoires.

Forte corrélation entre les variables aléatoires- la preuve de la présence d'un certain lien statistique spécifiquement entre ces phénomènes, mais ce lien ne peut être transféré aux mêmes phénomènes, mais pour une situation différente. Souvent, les chercheurs, ayant obtenu une corrélation significative entre deux variables dans leurs calculs, basés sur la simplicité de l'analyse de corrélation, font de fausses hypothèses intuitives sur l'existence de relations de cause à effet entre les caractéristiques, oubliant que le coefficient de corrélation est de nature probabiliste. .

Exemple: le nombre de personnes blessées dans des conditions de verglas et le nombre d'accidents de la route entre véhicules à moteur. Ces quantités seront corrélées les unes aux autres, bien qu'elles ne soient absolument pas interconnectées, mais n'ont qu'un lien avec la cause commune de ces événements aléatoires - la glace noire. Si l'analyse ne révèle pas de corrélation entre les phénomènes, cela ne prouve pas encore l'absence de dépendance entre eux, qui peut être complexe, non linéaire et non révélée par les calculs de corrélation.




Les premiers à introduire le concept de corrélation dans l'usage scientifique furent les Français. paléontologue Georges Cuvier. Au XVIIIe siècle, il déduit la loi de corrélation des parties et organes des organismes vivants, grâce à laquelle il devient possible de restituer l'apparence d'une créature fossile entière, animal, à partir des parties trouvées du corps (restes). En statistique, le terme corrélation a été utilisé pour la première fois en 1886 par un scientifique anglais. Francis Galton. Mais il n'a pas pu dériver la formule exacte pour calculer le coefficient de corrélation, mais son élève l'a fait - célèbre mathématicien et biologiste Karl Pearson.

Types de corrélation

Par importance– hautement significatif, significatif et insignifiant.

Types

à quoi r est égal

Hautement significatif

r correspond au niveau de signification statistique p<=0,01

Significatif

r correspond à p<=0,05

Insignifiant

r n'atteint pas p>0,1

Négatif(une diminution de la valeur d'une variable entraîne une augmentation du niveau d'une autre : plus une personne a de phobies, moins elle a de chances d'occuper une position de leader) et positive (si une augmentation d'une variable entraîne une augmentation au niveau d'un autre : plus vous êtes nerveux, plus vous risquez de tomber malade). S'il n'y a aucun lien entre les variables, alors une telle corrélation est appelée zéro.

Linéaire(quand une valeur augmente ou diminue, la seconde augmente ou diminue également) et non linéaire (quand lorsqu'une valeur change, la nature du changement dans la seconde ne peut pas être décrite à l'aide d'une relation linéaire, alors d'autres lois mathématiques sont appliquées - polynomiale, hyperbolique des relations).

Par force.

Chances




Selon l'échelle à laquelle appartiennent les variables étudiées, différents types de coefficients de corrélation sont calculés :

  1. Le coefficient de corrélation de Pearson, le coefficient de corrélation linéaire par paire ou la corrélation du moment du produit sont calculés pour les variables avec des échelles de mesure d'intervalle et d'échelle.
  2. Coefficient de corrélation de rang de Spearman ou de Kendall - lorsqu'au moins une des quantités a une échelle ordinale ou n'est pas normalement distribuée.
  3. Coefficient de corrélation bisériale ponctuelle (coefficient de corrélation du signe de Fechner) – si l'une des deux quantités est dichotomique.
  4. Coefficient de corrélation à quatre champs (coefficient de corrélation (concordance) à rangs multiples – ​​si deux variables sont dichotomiques.

Le coefficient de Pearson fait référence aux indicateurs de corrélation paramétriques, tous les autres sont non paramétriques.

La valeur du coefficient de corrélation varie de -1 à +1. Avec une corrélation positive complète, r = +1, avec une corrélation négative complète, r = -1.

Formule et calcul





Exemples

Il est nécessaire de déterminer la relation entre deux variables : le niveau de développement intellectuel (selon les tests) et le nombre de retards par mois (selon les inscriptions au journal pédagogique) chez les écoliers.

Les données initiales sont présentées dans le tableau :

Données de QI (x)

Données sur le nombre de retards (y)

Somme

1122

Moyenne

112,2


Pour donner une interprétation correcte de l'indicateur obtenu, il est nécessaire d'analyser le signe du coefficient de corrélation (+ ou -) et sa valeur absolue (modulo).

Conformément au tableau de classification du coefficient de corrélation par force, nous concluons que rxy = -0,827 est une forte corrélation négative. Ainsi, le nombre d’écoliers en retard dépend très fortement de leur niveau de développement intellectuel. On peut dire que les étudiants ayant un niveau de QI élevé sont moins souvent en retard en classe que les étudiants ayant un niveau de QI faible.



Le coefficient de corrélation peut être utilisé à la fois par les scientifiques pour confirmer ou réfuter l'hypothèse de dépendance de deux quantités ou phénomènes et mesurer sa force et sa signification, et par les étudiants pour mener des recherches empiriques et statistiques dans divers sujets. Il faut se rappeler que cet indicateur n'est pas un outil idéal ; il est calculé uniquement pour mesurer la force d'une relation linéaire et sera toujours une valeur probabiliste comportant une certaine erreur.

L'analyse de corrélation est utilisée dans les domaines suivants :

  • sciences économiques;
  • astrophysique;
  • sciences sociales (sociologie, psychologie, pédagogie) ;
  • agrochimie;
  • métallurgie;
  • industrie (pour le contrôle qualité) ;
  • hydrobiologie;
  • biométrie, etc.

Raisons de la popularité de la méthode d’analyse de corrélation :

  1. La relative simplicité du calcul des coefficients de corrélation ne nécessite pas de formation mathématique particulière.
  2. Permet de calculer les relations entre des variables aléatoires de masse, qui font l'objet d'analyses en science statistique. À cet égard, cette méthode s'est généralisée dans le domaine de la recherche statistique.

J'espère que vous saurez désormais distinguer une relation fonctionnelle d'une relation corrélationnelle et saurez que lorsque vous entendez à la télévision ou lisez dans la presse parler de corrélation, cela signifie une interdépendance positive et assez significative entre deux phénomènes.

Différents signes peuvent être liés les uns aux autres.

Il existe 2 types de connexions entre eux :

  • fonctionnel;
  • corrélation.

Corrélation traduit en russe n'est rien de plus qu'une connexion.
Dans le cas d'une connexion de corrélation, la correspondance de plusieurs valeurs d'une caractéristique avec plusieurs valeurs d'une autre caractéristique peut être retracée. A titre d’exemples, on peut considérer les corrélations établies entre :

  • la longueur des pattes, du cou et du bec des oiseaux tels que les hérons, les grues et les cigognes ;
  • indicateurs de température corporelle et de fréquence cardiaque.

Pour la plupart des processus biomédicaux, la présence de ce type de connexion a été statistiquement prouvée.

Les méthodes statistiques permettent d'établir le fait de l'existence d'une interdépendance des caractéristiques. L'utilisation de calculs particuliers conduit pour cela à l'établissement de coefficients de corrélation (mesures de connectivité).

De tels calculs sont appelés analyse de corrélation. Elle est réalisée pour confirmer la dépendance de 2 variables (variables aléatoires) l'une par rapport à l'autre, qui est exprimée par le coefficient de corrélation.

L'utilisation de la méthode de corrélation permet de résoudre plusieurs problèmes :

  • identifier l'existence d'une relation entre les paramètres analysés ;
  • la connaissance de la présence d'une corrélation permet de résoudre des problèmes de prévision. Ainsi, il existe une réelle opportunité de prédire le comportement d’un paramètre sur la base d’une analyse du comportement d’un autre paramètre corrélé ;
  • effectuer une classification basée sur la sélection de caractéristiques indépendantes les unes des autres.

Pour les variables :

  • par rapport à l'échelle ordinale, le coefficient de Spearman est calculé ;
  • lié à l’échelle d’intervalle – coefficient de Pearson.

Ce sont les paramètres les plus couramment utilisés, il en existe d’autres en plus.

La valeur du coefficient peut être exprimée soit positivement, soit négativement.

Dans le premier cas, à mesure que la valeur d’une variable augmente, on observe une augmentation de la seconde. Si le coefficient est négatif, la tendance est inversée.

A quoi sert le coefficient de corrélation ?

Les variables aléatoires liées les unes aux autres peuvent avoir des natures de connexion complètement différentes. Il ne sera pas nécessairement fonctionnel, cas où une relation directe entre quantités peut être tracée. Le plus souvent, les deux quantités sont affectées par tout un ensemble de facteurs divers ; dans les cas où elles sont communes aux deux quantités, on observe la formation de modèles liés.

Cela signifie que le fait statistiquement prouvé de l'existence d'une relation entre les quantités ne confirme pas que la cause des changements observés a été établie. En règle générale, le chercheur conclut qu’il existe deux conséquences interdépendantes.

Propriétés du coefficient de corrélation

Cette caractéristique statistique possède les propriétés suivantes :

  • la valeur du coefficient est comprise entre -1 et +1. Plus les valeurs extrêmes sont proches, plus la relation positive ou négative entre les paramètres linéaires est forte. Dans le cas d'une valeur nulle, on parle de l'absence de corrélation entre les caractéristiques ;
  • une valeur positive du coefficient indique que si la valeur d'une caractéristique augmente, une augmentation de la seconde est observée (corrélation positive) ;
  • valeur négative – en cas d'augmentation de la valeur d'une caractéristique, une diminution de la seconde est observée (corrélation négative) ;
  • l'approche de la valeur de l'indicateur vers les points extrêmes (soit -1, soit +1) indique la présence d'une relation linéaire très forte ;
  • les indicateurs d'une caractéristique peuvent changer alors que la valeur du coefficient reste inchangée ;
  • le coefficient de corrélation est une quantité sans dimension ;
  • la présence d'une corrélation ne confirme pas nécessairement une relation de cause à effet.

Valeurs des coefficients de corrélation

La force de la corrélation peut être caractérisée en recourant à l'échelle de Cheldock, dans laquelle une certaine valeur numérique correspond à une caractéristique qualitative.

En cas de corrélation positive avec la valeur :

  • 0-0,3 – la corrélation est très faible ;
  • 0,3-0,5 – faible ;
  • 0,5-0,7 – résistance moyenne ;
  • 0,7-0,9 – élevé ;
  • 0,9-1 – force de corrélation très élevée.

L'échelle peut également être utilisée pour une corrélation négative. Dans ce cas, les caractéristiques qualitatives sont remplacées par les caractéristiques opposées.

Vous pouvez utiliser l'échelle Cheldock simplifiée, qui ne distingue que 3 gradations de force de corrélation :

  • très fort - indicateurs ±0,7 - ±1 ;
  • moyenne - indicateurs ±0,3 - ±0,699 ;
  • très faible - indicateurs 0 - ±0,299.

Cet indicateur statistique permet non seulement de tester l'hypothèse de l'existence d'une relation linéaire entre les caractéristiques, mais aussi d'établir sa solidité.

Types de coefficient de corrélation

Les coefficients de corrélation peuvent être classés par signe et valeur :

  • positif;
  • nul;
  • négatif.

En fonction des valeurs analysées, le coefficient est calculé :

  • Pearson ;
  • Lancier;
  • Kendal ;
  • Signes Fechner ;
  • concordance ou corrélation de rangs multiples.

Le coefficient de corrélation de Pearson est utilisé pour établir des relations directes entre les valeurs absolues des variables. Dans ce cas, les distributions des deux séries de variables devraient se rapprocher de la normale. Les variables comparées doivent différer par le même nombre de caractéristiques variables. L'échelle représentant les variables doit être une échelle d'intervalle ou de rapport.

  • établir avec précision la force de corrélation ;
  • comparaison de caractéristiques quantitatives.

L’utilisation du coefficient de corrélation linéaire de Pearson présente quelques inconvénients :

  • la méthode est instable en cas de valeurs numériques aberrantes ;
  • En utilisant cette méthode, il est possible de déterminer la force de corrélation uniquement pour une relation linéaire ; pour d'autres types de relations mutuelles de variables, des méthodes d'analyse de régression doivent être utilisées.

La corrélation de rang est déterminée par la méthode de Spearman, qui permet d'étudier statistiquement la relation entre les phénomènes. Grâce à ce coefficient, le degré réel de parallélisme de deux séries de caractéristiques exprimées quantitativement est calculé, et l'étanchéité de la connexion identifiée est également évaluée.

  • ne nécessitant pas de détermination précise de la valeur de la force de corrélation ;
  • les indicateurs comparés ont des significations à la fois quantitatives et attributives ;
  • comparaison de séries de caractéristiques avec des variantes ouvertes de valeurs.

La méthode de Spearman est une méthode d'analyse non paramétrique, il n'est donc pas nécessaire de vérifier la normalité de la distribution d'une caractéristique. De plus, il permet de comparer des indicateurs exprimés selon différentes échelles. Par exemple, comparaison du nombre de globules rouges dans un certain volume de sang (échelle continue) et expertise exprimée en points (échelle ordinale).

L'efficacité de la méthode est affectée négativement par une grande différence entre les valeurs des quantités comparées. La méthode n'est pas non plus efficace dans les cas où la valeur mesurée est caractérisée par une répartition inégale des valeurs.

Calcul étape par étape du coefficient de corrélation dans Excel

Le calcul du coefficient de corrélation implique d'effectuer séquentiellement un certain nombre d'opérations mathématiques.

La formule ci-dessus pour calculer le coefficient de Pearson montre à quel point ce processus demande beaucoup de main-d'œuvre s'il est effectué manuellement.
L'utilisation des capacités d'Excel accélère considérablement le processus de recherche du coefficient.

Il suffit de suivre un algorithme d'actions simple :

  • saisir des informations de base - une colonne de valeurs x et une colonne de valeurs y ;
  • dans les outils, sélectionnez et ouvrez l'onglet « Formules » ;
  • dans l'onglet qui s'ouvre, sélectionnez « Insérer une fonction fx » ;
  • dans la boîte de dialogue qui s'ouvre, sélectionnez la fonction statistique « Corel », qui permet de calculer le coefficient de corrélation entre 2 jeux de données ;
  • dans la fenêtre qui s'ouvre, saisissez les données : tableau 1 – plage de valeurs de la colonne x (les données doivent être sélectionnées), tableau 2 – plage de valeurs de la colonne y ;
  • la touche « ok » est enfoncée, le résultat du calcul du coefficient apparaît dans la ligne « valeur » ;
  • conclusion concernant la présence d’une corrélation entre 2 ensembles de données et sa force.

Le coefficient de corrélation reflète le degré de relation entre deux indicateurs. Il prend toujours une valeur comprise entre -1 et 1. Si le coefficient se situe autour de 0, alors il n'y a aucun lien entre les variables.

Si la valeur est proche de un (à partir de 0,9 par exemple), alors il existe une forte relation directe entre les objets observés. Si le coefficient est proche de l’autre point extrême de la plage (-1), alors il existe une forte relation inverse entre les variables. Lorsque la valeur se situe entre 0 et 1 ou entre 0 et -1, nous parlons alors d'une connexion faible (directe ou inversée). Cette relation n'est généralement pas prise en compte : on pense qu'elle n'existe pas.

Calcul du coefficient de corrélation dans Excel

Regardons un exemple de méthodes de calcul du coefficient de corrélation, des caractéristiques des relations directes et inverses entre les variables.

Valeurs des indicateurs x et y :

Y est une variable indépendante, x est une variable dépendante. Il faut trouver la force (forte/faible) et la direction (avant/inverse) de la connexion entre eux. La formule du coefficient de corrélation ressemble à ceci :


Pour faciliter la compréhension, décomposons-le en plusieurs éléments simples.

Une forte relation directe est déterminée entre les variables.

La fonction CORREL intégrée évite les calculs complexes. Calculons le coefficient de corrélation de paire dans Excel en l'utilisant. Appelez l'assistant de fonction. Nous trouvons le bon. Les arguments de la fonction sont un tableau de valeurs y et un tableau de valeurs x :

Montrons les valeurs des variables sur le graphique :


Un lien fort entre y et x est visible, car les lignes sont presque parallèles les unes aux autres. La relation est directe : y augmente - x augmente, y diminue - x diminue.



Matrice de coefficients de corrélation de paires dans Excel

La matrice de corrélation est un tableau à l'intersection de lignes et de colonnes dont se situent les coefficients de corrélation entre les valeurs correspondantes. Il est logique de le construire pour plusieurs variables.

La matrice des coefficients de corrélation dans Excel est construite à l'aide de l'outil « Corrélation » du package « Analyse des données ».


Une forte relation directe a été trouvée entre les valeurs de y et x1. Il y a une forte rétroaction entre x1 et x2. Il n'y a pratiquement aucun lien avec les valeurs de la colonne x3.