05.03.2024

Come calcolare il coefficiente di correlazione. Coefficienti di correlazione. Utilizzo di Excel per calcolare i coefficienti di correlazione


Avviso! La soluzione al tuo problema specifico sarà simile a questo esempio, includendo tutte le tabelle e i testi esplicativi seguenti, ma tenendo conto dei tuoi dati iniziali...

Compito:
Esiste un campione correlato di 26 coppie di valori (x k,y k):

K 1 2 3 4 5 6 7 8 9 10
xk 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
sì k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

K 11 12 13 14 15 16 17 18 19 20
xk 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
sì k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

K 21 22 23 24 25 26
xk 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
sì k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Necessario per calcolare/tracciare:
- coefficiente di correlazione;
- verificare l'ipotesi di dipendenza delle variabili casuali X e Y, ad un livello di significatività pari a α = 0,05;
- coefficienti dell'equazione di regressione lineare;
- diagramma di dispersione (campo di correlazione) e grafico della linea di regressione;

SOLUZIONE:

1. Calcolare il coefficiente di correlazione.

Il coefficiente di correlazione è un indicatore della reciproca influenza probabilistica di due variabili casuali. Coefficiente di correlazione R può prendere valori da -1 Prima +1 . Se il valore assoluto è più vicino a 1 , allora questa è la prova di una forte connessione tra le quantità, e se più vicina a 0 - quindi questo indica una connessione debole o la sua assenza. Se valore assoluto R uguale a uno, allora possiamo parlare di una connessione funzionale tra quantità, cioè una quantità può essere espressa attraverso un'altra utilizzando una funzione matematica.


Il coefficiente di correlazione può essere calcolato utilizzando le seguenti formule:
N
Σ
k = 1
(x k -M x) 2 , σy2 =
Mx =
1
N
N
Σ
k = 1
xk, Mio =

o per formula

Rx,y =
M xy - M x M y
SxSy
(1.4), dove:
Mx =
1
N
N
Σ
k = 1
xk, Mio =
1
N
N
Σ
k = 1
sì, ok, Mxy =
1
N
N
Σ
k = 1
x k y k (1.5)
Sx2 =
1
N
N
Σ
k = 1
xk2 - Mx2, S y 2 =
1
N
N
Σ
k = 1
sì k 2 - Mio sì 2 (1.6)

In pratica, la formula (1.4) viene utilizzata più spesso per calcolare il coefficiente di correlazione perché richiede meno calcoli. Tuttavia, se la covarianza è stata precedentemente calcolata cov(X,Y), allora è più vantaggioso usare la formula (1.1), perché Oltre al valore di covarianza stesso, è possibile utilizzare anche i risultati dei calcoli intermedi.

1.1 Calcoliamo il coefficiente di correlazione utilizzando la formula (1.4), per fare ciò, calcoliamo i valori di x k 2, y k 2 e x k y k e li inseriamo nella Tabella 1.

Tabella 1


K
xk sì k xk 2 sì k 2 xksì k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Calcoliamo M x utilizzando la formula (1.5).

1.2.1. xk

x1 + x2 + … + x26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Calcoliamo M y in modo simile.

1.3.1. Aggiungiamo tutti gli elementi in sequenza sì k

y1 + y2 + … + y26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Dividere la somma risultante per il numero di elementi del campione

793.00000 / 26 = 30.50000

Mio y = 30,500000

1.4. In modo simile calcoliamo M xy.

1.4.1. Aggiungiamo in sequenza tutti gli elementi della 6a colonna della tabella 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Dividi la somma risultante per il numero di elementi

20412.83000 / 26 = 785.10885

Mxy = 785.108846

1.5. Calcoliamo il valore di S x 2 utilizzando la formula (1.6.).

1.5.1. Aggiungiamo in sequenza tutti gli elementi della 4a colonna della tabella 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Dividi la somma risultante per il numero di elementi

17256.91000 / 26 = 663.72731

1.5.3. Sottrai il quadrato di M x dall'ultimo numero per ottenere il valore di S x 2

Sx2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Calcoliamo il valore di S y 2 utilizzando la formula (1.6.).

1.6.1. Aggiungiamo in sequenza tutti gli elementi della 5a colonna della tabella 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Dividi la somma risultante per il numero di elementi

24191.84000 / 26 = 930.45538

1.6.3. Sottrai il quadrato di M y dall'ultimo numero per ottenere il valore di S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Calcoliamo il prodotto delle quantità S x 2 e S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Prendiamo la radice quadrata dell'ultimo numero e otteniamo il valore S x S y.

S x S y = 0,36951

1.9. Calcoliamo il valore del coefficiente di correlazione utilizzando la formula (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

RISPOSTA: R x,y = -0,720279

2. Controlliamo la significatività del coefficiente di correlazione (controlliamo l'ipotesi di dipendenza).

Poiché la stima del coefficiente di correlazione è calcolata su un campione finito e pertanto può discostarsi dal valore della popolazione, è necessario testare la significatività del coefficiente di correlazione. Il controllo viene effettuato utilizzando il test t:

t =
Rx,y
n-2
1 - R2x,y
(2.1)

Valore casuale T segue la distribuzione t di Student e utilizzando la tabella della distribuzione t è necessario trovare il valore critico del criterio (t cr.α) ad un dato livello di significatività α. Se t calcolato con la formula (2.1) in valore assoluto risulta essere inferiore a t cr.α , allora non esiste dipendenza tra le variabili casuali X e Y. Altrimenti, i dati sperimentali non contraddicono l'ipotesi sulla dipendenza delle variabili casuali.


2.1. Calcoliamo il valore del criterio t utilizzando la formula (2.1) e otteniamo:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Utilizzando la tabella di distribuzione t, determiniamo il valore critico del parametro t cr.α

Il valore desiderato di tcr.α si trova all'intersezione della riga corrispondente al numero di gradi di libertà e della colonna corrispondente al livello di significatività α specificato.
Nel nostro caso, il numero di gradi di libertà è n - 2 = 26 - 2 = 24 e α = 0.05 , che corrisponde al valore critico del criterio t cr.α = 2.064 (vedi tabella 2)

Tavolo 2 distribuzione t

Numero di gradi di libertà
(n-2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Confrontiamo il valore assoluto del criterio t e t cr.α

Il valore assoluto del criterio t non è inferiore al valore critico t = 5.08680, t cr.α = 2.064, quindi dati sperimentali, con probabilità 0,95(1 - α), non contraddire l'ipotesi sulla dipendenza delle variabili casuali X e Y.

3. Calcolare i coefficienti dell'equazione di regressione lineare.

Un'equazione di regressione lineare è un'equazione di una linea retta che approssima (descrive approssimativamente) la relazione tra le variabili casuali X e Y. Se assumiamo che il valore X sia libero e Y dipenda da X, allora l'equazione di regressione verrà scritta come segue


Y = a + b X (3.1), dove:

b =Rx,y
σy
σx
= Rx,y
Sx
(3.2),
a = M y - b M x (3.3)

Il coefficiente calcolato utilizzando la formula (3.2) B chiamato coefficiente di regressione lineare. In alcune fonti UNè chiamato coefficiente di regressione costante e B secondo le variabili.

Gli errori nella previsione di Y per un dato valore X vengono calcolati utilizzando le formule:

Viene anche chiamata la quantità σ y/x (formula 3.4). deviazione standard residua, caratterizza la deviazione del valore Y dalla retta di regressione descritta dall'equazione (3.1) per un valore fisso (dato) di X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Prendiamo la radice quadrata dell'ultimo numero e otteniamo:
S y / S x = 0,55582

3.3 Calcoliamo il coefficiente b secondo la formula (3.2)

B = -0.72028 0.55582 = -0.40035

3.4 Calcoliamo il coefficiente a secondo la formula (3.3)

UN = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Stimiamo gli errori dell’equazione di regressione.

3.5.1 Prendendo la radice quadrata di S y 2 otteniamo:

= 0.31437
3.5.4 Calcoliamo l'errore relativo utilizzando la formula (3.5)

δ y/x = (0,31437 / 30,50000)100% = 1,03073%

4. Costruiamo un diagramma di dispersione (campo di correlazione) e un grafico a linee di regressione.

Un grafico a dispersione è una rappresentazione grafica delle coppie corrispondenti (x k, y k) come punti su un piano, in coordinate rettangolari con gli assi X e Y. Il campo di correlazione è una delle rappresentazioni grafiche di un campione correlato (accoppiato). Anche il grafico della linea di regressione viene tracciato nello stesso sistema di coordinate. Le scale e i punti di partenza sugli assi dovrebbero essere scelti con attenzione per garantire che il diagramma sia il più chiaro possibile.

4.1. Trovare l'elemento minimo e massimo del campione X è rispettivamente il 18° e il 15° elemento, x min = 22.10000 e x max = 26.60000.

4.2. Troviamo che l'elemento minimo e massimo del campione Y sono rispettivamente il 2° e il 18° elemento, y min = 29,40000 e y max = 31,60000.

4.3. Sull'asse x, seleziona un punto iniziale leggermente a sinistra del punto x 18 = 22,10000 e una scala tale che il punto x 15 = 26,60000 si adatti all'asse e i punti rimanenti siano chiaramente visibili.

4.4. Sull'asse delle ordinate, selezionare un punto iniziale leggermente a sinistra del punto y 2 = 29.40000 e una scala tale che il punto y 18 = 31.60000 si adatti all'asse e i punti rimanenti siano chiaramente distinguibili.

4.5. Posizioniamo i valori x k sull'asse delle ascisse e i valori y k sull'asse delle ordinate.

4.6. Tracciamo i punti (x 1, y 1), (x 2, y 2),…, (x 26, y 26) sul piano delle coordinate. Otteniamo il diagramma di dispersione (campo di correlazione) mostrato nella figura seguente.

4.7. Disegniamo una linea di regressione.

Per fare ciò, troveremo due punti diversi con coordinate (x r1, y r1) e (x r2, y r2) che soddisfano l'equazione (3.6), tracciateli sul piano delle coordinate e tracciamo una linea retta che li attraversa. Come ascissa del primo punto prendiamo il valore x min = 22.10000. Sostituendo il valore x min nell'equazione (3.6), otteniamo l'ordinata del primo punto. Quindi, abbiamo un punto con coordinate (22.10000, 31.96127). In modo analogo otteniamo le coordinate del secondo punto, ponendo come ascissa il valore x max = 26.60000. Il secondo punto sarà: (26.60000, 30.15970).

La retta di regressione è mostrata nella figura seguente in rosso

Si tenga presente che la retta di regressione passa sempre per il punto dei valori medi di X e Y, cioè con coordinate (M x , M y).

Lo scopo dell'analisi di correlazione consiste nell'identificare una stima della forza della connessione tra variabili casuali (caratteristiche) che caratterizzano alcuni processi reali.
Problemi di analisi delle correlazioni:
a) Misurare il grado di coerenza (vicinanza, forza, gravità, intensità) di due o più fenomeni.
b) Selezione dei fattori che hanno l'impatto più significativo sull'attributo risultante, basata sulla misurazione del grado di connettività tra i fenomeni. I fattori significativi in ​​questo aspetto vengono utilizzati ulteriormente nell'analisi di regressione.
c) Rilevazione di relazioni causali sconosciute.

Le forme di manifestazione delle relazioni sono molto diverse. I tipi più comuni sono funzionali (completi) e connessione di correlazione (incompleta)..
Correlazione si manifesta in media per osservazioni di massa, quando i valori dati della variabile dipendente corrispondono ad una certa serie di valori probabilistici della variabile indipendente. La relazione è chiamata correlazione, se ciascun valore della caratteristica del fattore corrisponde ad un valore non casuale ben definito della caratteristica risultante.
Una rappresentazione visiva di una tabella di correlazione è il campo di correlazione. È un grafico in cui i valori X sono tracciati sull'asse delle ascisse, i valori Y sono tracciati sull'asse delle ordinate e le combinazioni di X e Y sono mostrate da punti Dalla posizione dei punti, si può giudicare la presenza di una connessione.
Indicatori di vicinanza della connessione consentire di caratterizzare la dipendenza della variazione del tratto risultante dalla variazione del tratto fattoriale.
Un indicatore più avanzato del grado di affollamento connessione di correlazioneÈ coefficiente di correlazione lineare. Nel calcolare questo indicatore, vengono prese in considerazione non solo le deviazioni dei singoli valori di una caratteristica dalla media, ma anche l'entità stessa di queste deviazioni.

Le domande chiave di questo argomento sono le equazioni della relazione di regressione tra la caratteristica effettiva e la variabile esplicativa, il metodo dei minimi quadrati per stimare i parametri del modello di regressione, l'analisi della qualità dell'equazione di regressione risultante, la costruzione di intervalli di confidenza per prevedere la valori della caratteristica effettiva utilizzando l'equazione di regressione.

Esempio 2


Sistema di equazioni normali.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Per i nostri dati, il sistema di equazioni ha la forma
30a + 5763 b = 21460
5763a + 1200261b = 3800360
Dalla prima equazione esprimiamo UN e sostituisco nella seconda equazione:
Otteniamo b = -3,46, a = 1379,33
Equazione di regressione:
y = -3,46 x + 1379,33

2. Calcolo dei parametri dell'equazione di regressione.
Campione significa.



Varianze del campione:


Deviazione standard


1.1. Coefficiente di correlazione
Covarianza.

Calcoliamo l'indicatore di vicinanza della connessione. Questo indicatore è il coefficiente di correlazione lineare del campione, che viene calcolato con la formula:

Il coefficiente di correlazione lineare assume valori da –1 a +1.
Le connessioni tra le caratteristiche possono essere deboli e forti (strette). I loro criteri sono valutati sulla scala Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Nel nostro esempio, la relazione tra il tratto Y e il fattore X è alta e inversa.
Inoltre, il coefficiente di correlazione della coppia lineare può essere determinato attraverso il coefficiente di regressione b:

1.2. Equazione di regressione(stima dell'equazione di regressione).

L'equazione di regressione lineare è y = -3,46 x + 1379,33

Il coefficiente b = -3,46 mostra la variazione media dell'indicatore effettivo (in unità di misura y) con un aumento o una diminuzione del valore del fattore x per unità della sua misura. In questo esempio, con un aumento di 1 unità, y diminuisce in media di -3,46.
Il coefficiente a = 1379,33 mostra formalmente il livello previsto di y, ma solo se x = 0 è vicino ai valori del campione.
Ma se x=0 è lontano dai valori campionari di x, allora un'interpretazione letterale può portare a risultati errati, e anche se la retta di regressione descrive i valori campionari osservati in modo abbastanza accurato, non vi è alcuna garanzia che anche questo essere il caso quando si estrapola a sinistra o a destra.
Sostituendo i valori x appropriati nell'equazione di regressione, possiamo determinare i valori allineati (previsti) dell'indicatore di prestazione y(x) per ciascuna osservazione.
Il rapporto tra yex determina il segno del coefficiente di regressione b (se > 0 - rapporto diretto, altrimenti - inverso). Nel nostro esempio, la connessione è inversa.
1.3. Coefficiente di elasticità.
Non è consigliabile utilizzare coefficienti di regressione (nell'esempio b) per valutare direttamente l'influenza dei fattori su una caratteristica risultante se c'è una differenza tra le unità di misura dell'indicatore risultante y e della caratteristica del fattore x.
A tal fine vengono calcolati i coefficienti di elasticità e i coefficienti beta.
Il coefficiente di elasticità medio E mostra di quale percentuale in media cambierà il risultato nell'aggregato A dal suo valore medio quando il fattore cambia X dell’1% del suo valore medio.
Il coefficiente di elasticità si trova dalla formula:


Il coefficiente di elasticità è inferiore a 1. Pertanto, se X cambia dell'1%, Y cambierà meno dell'1%. In altre parole, l’influenza di X su Y non è significativa.
Coefficiente beta mostra di quale parte del valore della sua deviazione standard cambierà il valore medio della caratteristica risultante quando la caratteristica del fattore cambia del valore della sua deviazione standard con il valore delle restanti variabili indipendenti fissato a un livello costante:

Quelli. un aumento di x della deviazione standard S x porterà a una diminuzione del valore medio di Y di 0,74 deviazione standard S y .
1.4. Errore di approssimazione.
Valutiamo la qualità dell'equazione di regressione utilizzando l'errore di approssimazione assoluta. Errore di approssimazione medio - deviazione media dei valori calcolati da quelli effettivi:


Poiché l'errore è inferiore al 15%, questa equazione può essere utilizzata come regressione.
Analisi della varianza.
Lo scopo dell'analisi della varianza è analizzare la varianza della variabile dipendente:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Dove
∑(y i - y cp) 2 - somma totale dei quadrati delle deviazioni;
∑(y(x) - y cp) 2 - la somma dei quadrati delle deviazioni dovute alla regressione (“spiegata” o “fattoriale”);
∑(y - y(x)) 2 - somma residua dei quadrati delle deviazioni.
Relazione di correlazione teorica per una connessione lineare è pari al coefficiente di correlazione r xy .
Per qualsiasi forma di dipendenza, la tenuta della connessione viene determinata utilizzando coefficiente di correlazione multipla:

Questo coefficiente è universale, poiché riflette la vicinanza della relazione e l'accuratezza del modello, e può essere utilizzato anche per qualsiasi forma di connessione tra variabili. Quando si costruisce un modello di correlazione a un fattore, il coefficiente di correlazione multipla è uguale al coefficiente di correlazione della coppia r xy.
1.6. Coefficiente di determinazione.
Il quadrato del coefficiente di correlazione (multiplo) è chiamato coefficiente di determinazione, che mostra la proporzione di variazione nell'attributo risultante spiegata dalla variazione nell'attributo fattore.
Molto spesso, quando si interpreta il coefficiente di determinazione, viene espresso in percentuale.
R2 = -0,742 = 0,5413
quelli. nel 54,13% dei casi, variazioni di x portano a variazioni di y. In altre parole, la precisione nella selezione dell'equazione di regressione è media. Il restante 45,87% della variazione di Y è spiegato da fattori non presi in considerazione nel modello.

Bibliografia

  1. Econometria: libro di testo / Ed. I.I. Eliseeva. – M.: Finanza e statistica, 2001, p. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometria. Corso per principianti. Esercitazione. – 2a ed., riv. – M.: Delo, 1998, p. 17..42.
  3. Workshop sull'econometria: Proc. indennità / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko e altri; Ed. I.I. Eliseeva. – M.: Finanza e statistica, 2001, p. 5..48.

06.06.2018 16 235 0 Igor

Psicologia e società

Tutto nel mondo è interconnesso. Ogni persona, a livello di intuizione, cerca di trovare relazioni tra i fenomeni per poterli influenzare e controllare. Il concetto che riflette questa relazione è chiamato correlazione. Cosa significa in parole semplici?

Contenuto:

Concetto di correlazione

Correlazione (dal latino “correlatio” - rapporto, relazione)– un termine matematico che indica una misura della dipendenza statistica probabilistica tra quantità casuali (variabili).



Esempio: Prendiamo due tipi di relazioni:

  1. Primo- una penna in mano a una persona. In quale direzione si muove la mano, in quella direzione va la penna. Se la mano è ferma, la penna non scriverà. Se una persona lo preme un po' più forte, il segno sulla carta sarà più ricco. Questo tipo di relazione riflette una stretta dipendenza e non è correlazionale. Questa relazione è funzionale.
  2. Secondo tipo– il rapporto tra il livello di istruzione di una persona e la lettura della letteratura. Non si sa in anticipo quali persone leggano di più: quelle con o senza istruzione superiore. Questa connessione è casuale o stocastica; è studiata dalla scienza statistica, che si occupa esclusivamente di fenomeni di massa. Se un calcolo statistico consente di dimostrare la correlazione tra il livello di istruzione e la lettura della letteratura, ciò consentirà di fare previsioni e prevedere il verificarsi probabilistico degli eventi. In questo esempio, con un alto grado di probabilità, si può sostenere che le persone con un'istruzione superiore, quelle più istruite, leggono più libri. Ma poiché la connessione tra questi parametri non è funzionale, potremmo sbagliarci. Puoi sempre calcolare la probabilità di un tale errore, che sarà chiaramente piccola e si chiama livello di significatività statistica (p).

Esempi di relazioni tra fenomeni naturali sono: la catena alimentare in natura, il corpo umano, che consiste di sistemi di organi interconnessi e funzionanti come un unico insieme.

Ogni giorno incontriamo correlazioni nella vita di tutti i giorni: tra il tempo e il buon umore, la corretta formulazione degli obiettivi e il loro raggiungimento, un atteggiamento positivo e fortunato, una sensazione di felicità e benessere finanziario. Ma stiamo cercando connessioni, basandoci non su calcoli matematici, ma su miti, intuizione, superstizioni e speculazioni oziose. Questi fenomeni sono molto difficili da tradurre in linguaggio matematico, esprimere in numeri e misurare. Un’altra questione è quando analizziamo fenomeni che possono essere calcolati e presentati sotto forma di numeri. In questo caso, possiamo definire la correlazione utilizzando il coefficiente di correlazione (r), che riflette la forza, il grado, la vicinanza e la direzione della correlazione tra variabili casuali.

Forte correlazione tra variabili casuali- evidenza della presenza di qualche connessione statistica specificatamente tra questi fenomeni, ma questa connessione non può essere trasferita agli stessi fenomeni, ma per una situazione diversa. Spesso i ricercatori, avendo ottenuto una correlazione significativa tra due variabili nei loro calcoli, basandosi sulla semplicità dell'analisi di correlazione, fanno false ipotesi intuitive sull'esistenza di relazioni di causa-effetto tra le caratteristiche, dimenticando che il coefficiente di correlazione è di natura probabilistica .

Esempio: il numero di persone ferite in condizioni di ghiaccio e il numero di incidenti stradali tra veicoli a motore. Queste quantità saranno correlate tra loro, sebbene non siano assolutamente interconnesse, ma abbiano solo una connessione con la causa comune di questi eventi casuali: il ghiaccio nero. Se l'analisi non rivela una correlazione tra i fenomeni, ciò non è ancora prova dell'assenza di dipendenza tra loro, che può essere complessa non lineare e non rivelata dai calcoli di correlazione.




I primi a introdurre il concetto di correlazione nell’uso scientifico furono i francesi paleontologo Georges Cuvier. Nel XVIII secolo dedusse la legge di correlazione di parti e organi di organismi viventi, grazie alla quale divenne possibile ripristinare l'aspetto di un'intera creatura fossile, animale, dalle parti del corpo ritrovate (resti). In statistica, il termine correlazione fu usato per la prima volta nel 1886 da uno scienziato inglese Francesco Galton. Ma non riuscì a ricavare la formula esatta per calcolare il coefficiente di correlazione, ma il suo studente lo fece: famoso matematico e biologo Karl Pearson.

Tipi di correlazione

Per importanza– altamente significativo, significativo e insignificante.

Tipi

a cosa è uguale r?

Altamente significativo

r corrisponde al livello di significatività statistica p<=0,01

Significativo

r corrisponde a p<=0,05

Insignificante

r non raggiunge p>0,1

Negativo(una diminuzione del valore di una variabile porta ad un aumento del livello di un'altra: più fobie una persona ha, meno probabilità ha di occupare una posizione di leadership) e positiva (se un aumento di una variabile porta ad un aumento nel livello di un altro: più sei nervoso, più è probabile che ti ammali). Se non esiste alcuna connessione tra le variabili, tale correlazione viene chiamata zero.

Lineare(quando un valore aumenta o diminuisce, anche il secondo aumenta o diminuisce) e non lineare (quando quando un valore cambia, la natura del cambiamento nel secondo non può essere descritta utilizzando una relazione lineare, quindi vengono applicate altre leggi matematiche: polinomiale, iperbolica relazioni).

Per forza.

Probabilità




A seconda della scala di appartenenza delle variabili oggetto di studio vengono calcolati diversi tipi di coefficienti di correlazione:

  1. Il coefficiente di correlazione di Pearson, il coefficiente di correlazione lineare a coppie o la correlazione del momento del prodotto viene calcolato per variabili con scale di misurazione di intervallo e scala.
  2. Coefficiente di correlazione del rango di Spearman o Kendall - quando almeno una delle quantità ha una scala ordinale o non è distribuita normalmente.
  3. Coefficiente di correlazione biseriale del punto (coefficiente di correlazione con segno di Fechner) – se una delle due quantità è dicotomica.
  4. Coefficiente di correlazione a quattro campi (coefficiente di correlazione di rango multiplo (concordanza) – se due variabili sono dicotomiche.

Il coefficiente di Pearson si riferisce agli indicatori di correlazione parametrici, tutti gli altri sono non parametrici.

Il valore del coefficiente di correlazione varia da -1 a +1. Con una correlazione completamente positiva, r = +1, con una correlazione completamente negativa, r = -1.

Formula e calcolo





Esempi

È necessario determinare la relazione tra due variabili: il livello di sviluppo intellettuale (secondo i test) e il numero di ritardi mensili (secondo le voci del diario educativo) tra gli scolari.

I primi dati sono presentati nella tabella:

Dati QI (x)

Dati sul numero di ritardi (y)

Somma

1122

Media

112,2


Per dare una corretta interpretazione dell'indicatore ottenuto è necessario analizzare il segno del coefficiente di correlazione (+ o -) ed il suo valore assoluto (modulo).

Secondo la tabella di classificazione del coefficiente di correlazione in base alla forza, concludiamo che rxy = -0,827 è una forte correlazione negativa. Pertanto, il numero di scolari in ritardo dipende molto fortemente dal loro livello di sviluppo intellettuale. Si può dire che gli studenti con un QI elevato arrivano in ritardo alle lezioni meno spesso rispetto agli studenti con un QI basso.



Il coefficiente di correlazione può essere utilizzato sia dagli scienziati per confermare o confutare l'ipotesi della dipendenza di due quantità o fenomeni e misurarne la forza e il significato, sia dagli studenti per condurre ricerche empiriche e statistiche in varie materie. Va ricordato che questo indicatore non è uno strumento ideale; viene calcolato solo per misurare la forza di una relazione lineare e sarà sempre un valore probabilistico che presenta un certo errore.

L'analisi di correlazione viene utilizzata nelle seguenti aree:

  • scienze economiche;
  • astrofisica;
  • scienze sociali (sociologia, psicologia, pedagogia);
  • agrochimica;
  • metallurgia;
  • industria (per il controllo qualità);
  • idrobiologia;
  • biometria, ecc.

Ragioni della popolarità del metodo di analisi della correlazione:

  1. La relativa semplicità del calcolo dei coefficienti di correlazione non richiede una formazione matematica speciale.
  2. Consente di calcolare le relazioni tra variabili casuali di massa, che sono oggetto di analisi nella scienza statistica. A questo proposito, questo metodo si è diffuso nel campo della ricerca statistica.

Spero che ora sarai in grado di distinguere una relazione funzionale da una relazione di correlazione e saprai che quando senti parlare di correlazione in televisione o leggi sulla stampa, significa un'interdipendenza positiva e abbastanza significativa tra due fenomeni.

Vari segni possono essere correlati tra loro.

Esistono 2 tipi di connessioni tra loro:

  • funzionale;
  • correlazione.

Correlazione tradotto in russo non è altro che una connessione.
Nel caso di una connessione di correlazione si può risalire alla corrispondenza di più valori di una caratteristica con più valori di un'altra caratteristica. A titolo di esempio, possiamo considerare le correlazioni stabilite tra:

  • la lunghezza delle zampe, del collo e del becco di uccelli come aironi, gru e cicogne;
  • indicatori della temperatura corporea e della frequenza cardiaca.

Per la maggior parte dei processi biomedici la presenza di questo tipo di connessione è stata statisticamente provata.

I metodi statistici consentono di stabilire il fatto dell'esistenza dell'interdipendenza delle caratteristiche. L'utilizzo di calcoli speciali a questo scopo porta alla determinazione di coefficienti di correlazione (misure di connettività).

Tali calcoli sono chiamati analisi di correlazione. Viene effettuato per confermare la dipendenza reciproca di 2 variabili (variabili casuali), espressa dal coefficiente di correlazione.

L'utilizzo del metodo di correlazione consente di risolvere diversi problemi:

  • identificare la presenza di una relazione tra i parametri analizzati;
  • la conoscenza della presenza di una correlazione consente di risolvere problemi di previsione. Esiste quindi una reale opportunità di prevedere il comportamento di un parametro sulla base dell'analisi del comportamento di un altro parametro correlato;
  • effettuare una classificazione basata sulla selezione di caratteristiche indipendenti l'una dall'altra.

Per le variabili:

  • rispetto alla scala ordinale viene calcolato il coefficiente di Spearman;
  • relativo alla scala degli intervalli – coefficiente di Pearson.

Questi sono i parametri più comunemente usati, ce ne sono altri oltre ad essi.

Il valore del coefficiente può essere espresso sia positivo che negativo.

Nel primo caso, all’aumentare del valore di una variabile, si osserva un aumento della seconda. Se il coefficiente è negativo, lo schema è invertito.

A cosa serve il coefficiente di correlazione?

Le variabili casuali correlate tra loro possono avere natura completamente diversa di questa connessione. Non sarà necessariamente funzionale, nel caso in cui si possa rintracciare una relazione diretta tra le quantità. Molto spesso, entrambe le quantità sono influenzate da tutta una serie di fattori diversi; nei casi in cui sono comuni ad entrambe, si osserva la formazione di modelli correlati.

Ciò significa che il fatto statisticamente provato dell'esistenza di una relazione tra quantità non conferma che sia stata stabilita la causa dei cambiamenti osservati. Di norma, il ricercatore conclude che ci sono due conseguenze correlate.

Proprietà del coefficiente di correlazione

Questa caratteristica statistica ha le seguenti proprietà:

  • Il valore del coefficiente varia da -1 a +1. Quanto più ci si avvicina ai valori estremi, tanto più forte è la relazione positiva o negativa tra i parametri lineari. Nel caso di valore zero si parla di assenza di correlazione tra le caratteristiche;
  • un valore positivo del coefficiente indica che se aumenta il valore di una caratteristica si osserva un aumento della seconda (correlazione positiva);
  • valore negativo – in caso di aumento del valore di una caratteristica si osserva una diminuzione della seconda (correlazione negativa);
  • l'avvicinamento del valore dell'indicatore ai punti estremi (sia -1 che +1) indica la presenza di una relazione lineare molto forte;
  • gli indicatori di una caratteristica possono cambiare mentre il valore del coefficiente rimane invariato;
  • il coefficiente di correlazione è una quantità adimensionale;
  • la presenza di una correlazione non conferma necessariamente una relazione di causa-effetto.

Valori dei coefficienti di correlazione

La forza della correlazione può essere caratterizzata ricorrendo alla scala Cheldock, nella quale ad un certo valore numerico corrisponde una caratteristica qualitativa.

In caso di correlazione positiva con il valore:

  • 0-0,3 – la correlazione è molto debole;
  • 0,3-0,5 – debole;
  • 0,5-0,7 – forza media;
  • 0,7-0,9 – alto;
  • 0,9-1 – forza di correlazione molto elevata.

La scala può essere utilizzata anche per la correlazione negativa. In questo caso le caratteristiche qualitative vengono sostituite da quelle opposte.

Puoi utilizzare la scala Cheldock semplificata, che distingue solo 3 gradazioni di forza di correlazione:

  • molto forte - indicatori ±0,7 - ±1;
  • media - indicatori ±0,3 - ±0,699;
  • molto debole - indicatori 0 - ±0,299.

Questo indicatore statistico consente non solo di verificare l'ipotesi dell'esistenza di una relazione lineare tra caratteristiche, ma anche di stabilirne la forza.

Tipi di coefficiente di correlazione

I coefficienti di correlazione possono essere classificati per segno e valore:

  • positivo;
  • nullo;
  • negativo.

A seconda dei valori analizzati si calcola il coefficiente:

  • Pearson;
  • Lanciere;
  • Kendal;
  • Segni Fechner;
  • concordanza o correlazione di ranghi multipli.

Il coefficiente di correlazione di Pearson viene utilizzato per stabilire relazioni dirette tra i valori assoluti delle variabili. In questo caso, le distribuzioni di entrambe le serie di variabili dovrebbero avvicinarsi alla normalità. Le variabili confrontate devono differire nello stesso numero di caratteristiche variabili. La scala che rappresenta le variabili deve essere una scala di intervalli o di rapporti.

  • stabilire accuratamente la forza di correlazione;
  • confronto di caratteristiche quantitative.

Ci sono alcuni svantaggi nell’usare il coefficiente di correlazione lineare di Pearson:

  • il metodo è instabile in caso di valori numerici anomali;
  • Utilizzando questo metodo, è possibile determinare la forza della correlazione solo per una relazione lineare; per altri tipi di relazioni reciproche di variabili, dovrebbero essere utilizzati metodi di analisi di regressione.

La correlazione di rango è determinata dal metodo Spearman, che consente di studiare statisticamente la relazione tra i fenomeni. Grazie a questo coefficiente si calcola l'effettivo grado di parallelismo di due serie di caratteristiche quantitativamente espresse, e si valuta anche la tenuta della connessione individuata.

  • non richiedere una determinazione precisa del valore della forza di correlazione;
  • gli indicatori confrontati hanno significati sia quantitativi che attributivi;
  • confronto di serie di caratteristiche con varianti aperte di valori.

Il metodo di Spearman è un metodo di analisi non parametrico, quindi non è necessario verificare la normalità della distribuzione di una caratteristica. Inoltre, consente di confrontare indicatori espressi su scale diverse. Ad esempio, confronto del numero di globuli rossi in un determinato volume di sangue (scala continua) e valutazione di esperti espressa in punti (scala ordinale).

L'efficacia del metodo è influenzata negativamente da una grande differenza tra i valori delle quantità confrontate. Il metodo non è efficace nemmeno nei casi in cui il valore misurato è caratterizzato da una distribuzione non uniforme dei valori.

Calcolo passo passo del coefficiente di correlazione in Excel

Il calcolo del coefficiente di correlazione comporta l'esecuzione sequenziale di una serie di operazioni matematiche.

La formula precedente per il calcolo del coefficiente di Pearson mostra quanto sia laborioso questo processo se eseguito manualmente.
L'utilizzo delle funzionalità di Excel accelera notevolmente il processo di ricerca del coefficiente.

È sufficiente seguire un semplice algoritmo di azioni:

  • immissione delle informazioni di base: una colonna di valori x e una colonna di valori y;
  • negli strumenti, seleziona e apri la scheda “Formule”;
  • nella scheda che si apre, seleziona “Inserisci funzione fx”;
  • nella finestra di dialogo che si apre, seleziona la funzione statistica “Corel”, che permette di calcolare il coefficiente di correlazione tra 2 set di dati;
  • nella finestra che si apre, inserisci i dati: array 1 – intervallo di valori della colonna x (i dati devono essere selezionati), array 2 – intervallo di valori della colonna y;
  • si preme il tasto “ok”, nella riga “valore” appare il risultato del calcolo del coefficiente;
  • conclusione riguardante la presenza di una correlazione tra 2 set di dati e la sua forza.

Il coefficiente di correlazione riflette il grado di relazione tra due indicatori. Assume sempre un valore compreso tra -1 e 1. Se il coefficiente si trova intorno a 0, non esiste alcuna connessione tra le variabili.

Se il valore è vicino a uno (da 0,9, ad esempio), allora esiste una forte relazione diretta tra gli oggetti osservati. Se il coefficiente è vicino all’altro punto estremo dell’intervallo (-1), allora esiste una forte relazione inversa tra le variabili. Quando il valore è compreso tra 0 e 1 o tra 0 e -1, stiamo parlando di una connessione debole (diretta o inversa). Di solito questa relazione non viene presa in considerazione: si ritiene che non esista.

Calcolo del coefficiente di correlazione in Excel

Diamo un'occhiata a un esempio di metodi per il calcolo del coefficiente di correlazione, caratteristiche delle relazioni dirette e inverse tra le variabili.

Valori degli indicatori xey:

Y è una variabile indipendente, x è una variabile dipendente. È necessario trovare la forza (forte/debole) e la direzione (diretta/inversa) della connessione tra loro. La formula del coefficiente di correlazione è simile alla seguente:


Per facilitarne la comprensione, scomponiamolo in alcuni semplici elementi.

Si determina una forte relazione diretta tra le variabili.

La funzione CORRELAZIONE integrata evita calcoli complessi. Calcoliamo il coefficiente di correlazione della coppia in Excel utilizzandolo. Richiamare la funzione guidata. Troviamo quello di cui abbiamo bisogno. Gli argomenti della funzione sono un array di valori y e un array di valori x:

Mostriamo i valori delle variabili sul grafico:


Una forte connessione tra y e x è visibile, perché le linee corrono quasi parallele tra loro. La relazione è diretta: y aumenta - x aumenta, y diminuisce - x diminuisce.



Matrice dei coefficienti di correlazione delle coppie in Excel

La matrice di correlazione è una tabella all'intersezione di righe e colonne di cui si trovano i coefficienti di correlazione tra i valori corrispondenti. Ha senso costruirlo per diverse variabili.

La matrice dei coefficienti di correlazione in Excel viene costruita utilizzando lo strumento "Correlazione" del pacchetto "Analisi dei dati".


È stata trovata una forte relazione diretta tra i valori di y e x1. C'è un forte feedback tra x1 e x2. Non c'è praticamente alcun collegamento con i valori nella colonna x3.