correlazione significa una somiglianza o relazione tra due cose, persone o idee. È una somiglianza o equivalenza che esiste tra due diverse ipotesi, situazioni o oggetti.
Nel campo della statistica e della matematica, la correlazione si riferisce a una misura tra due o più variabili correlate.
Il termine correlazione è un sostantivo femminile che deriva dal latino correlare.
La parola correlazione può essere sostituita da sinonimi come: relazione, equivalenza, nesso, corrispondenza, analogia e connessione.
Coefficiente di correlazione
Nelle statistiche il Coefficiente di correlazione di Pearson (r), chiamato anche coefficiente di correlazione prodotto-momento, misura la relazione che esiste tra due variabili all'interno della stessa scala metrica.
La funzione del coefficiente di correlazione è determinare la forza della relazione che esiste tra insiemi di dati o informazioni noti.
Il valore del coefficiente di correlazione può variare tra -1 e 1 e il risultato ottenuto definisce se la correlazione è negativa o positiva.
Per interpretare il coefficiente è necessario sapere che 1 significa che la correlazione tra le variabili è perfetto positivo e -1 significa che lo è perfetto negativo. Se il coefficiente è uguale a 0 significa che le variabili non dipendono l'una dall'altra.
Nelle statistiche c'è anche il Coefficiente di correlazione di Spearman, dal nome dello statistico Charles Spearman. La funzione di questo coefficiente è quella di misurare l'intensità della relazione tra due variabili, siano esse lineari o meno.
La correlazione di Spearman serve a valutare se l'intensità della relazione tra le due variabili analizzate può essere misurato da una funzione monotona (funzione matematica che conserva o inverte la relazione d'ordine iniziale).
Calcolo del coefficiente di correlazione di Pearson
Metodo 1) Calcolo del coefficiente di correlazione di Pearson mediante covarianza e deviazione standard.
Dove
SXYè la covarianza;
SX e Ssìrappresentano rispettivamente la deviazione standard delle variabili x e y.
In questo caso, il calcolo consiste nel trovare prima la covarianza tra le variabili e la deviazione standard di ciascuna di esse. Quindi dividere la covarianza moltiplicando le deviazioni standard.
Spesso l'enunciato fornisce già o le deviazioni standard delle variabili, o la covarianza tra di esse, semplicemente applicando la formula.
Metodo 2) Calcolo del coefficiente di correlazione di Pearson con dati grezzi (nessuna covarianza o deviazione standard).
Con questo metodo, la formula più diretta è la seguente:
Ad esempio, supponendo di avere dati con n=6 osservazioni di due variabili: livello di glucosio (y) ed età (x), il calcolo segue questi passaggi:
Passaggio 1) Crea la tabella con i dati esistenti: i, x, y e aggiungi colonne vuote per xy, x² e y²:
Passaggio 2: moltiplica x e y per riempire la colonna "xy". Ad esempio, nella riga 1 avremo: x1y1 = 43 × 99 = 4257.
Passaggio 3: quadrare i valori nella colonna x e registrare i risultati nella colonna x². Ad esempio, nella prima riga avremo x12 = 43 × 43 = 1849.
Passaggio 4: fai lo stesso del passaggio 3, ora usando la colonna y e registra il quadrato dei tuoi valori nella colonna y². Ad esempio, nella prima riga avremo: y12 = 99 × 99 = 9801.
Passaggio 5: ottenere la somma di tutti i numeri di colonna e inserire il risultato nel piè di pagina. Ad esempio, la somma della colonna Età X è uguale a 43+21+25+42+57+59 = 247.
Passaggio 6: utilizzare la formula sopra per ottenere il coefficiente di correlazione:
Quindi abbiamo:
Calcolo del coefficiente di correlazione di Spearman
Il calcolo del coefficiente di correlazione di Spearman è leggermente diverso. Per questo, dobbiamo organizzare i nostri dati nella seguente tabella:
1. Avendo nell'istruzione 2 coppie di dati, dobbiamo introdurli nella tabella. Per esempio:
2. Nella colonna "Classifica A", ordineremo le osservazioni che sono in "Data A" ascendente, essendo “1” il valore più basso nella colonna e n (numero totale di osservazioni) il valore più alto nella colonna “Data” IL". Nel nostro esempio è:
3. Facciamo lo stesso per ottenere la colonna “Classifica B”, utilizzando ora le osservazioni nella colonna “Dati B”:
4. Nella colonna “d” mettiamo la differenza tra le due Classifiche (A - B). Qui il segnale non ha importanza.
5. Piazza ciascuno dei valori nella colonna "d" e registra nella colonna d²:
6. Somma tutti i dati della colonna "d²". Questo valore è Σd². Nel nostro esempio Σd² = 0+1+0+1 = 2
7. Ora usiamo la formula di Spearman:
Nel nostro caso, n è uguale a 4, poiché osserviamo il numero di linee di dati (che corrisponde al numero di osservazioni).
8. Infine, abbiamo sostituito i dati nella formula precedente:
regressione lineare
La regressione lineare è una formula utilizzata per stimare il possibile valore di una variabile (y) quando sono noti i valori di altre variabili (x). Il valore di "x" è la variabile indipendente o esplicativa e "y" è la variabile dipendente o la risposta.
La regressione lineare viene utilizzata per vedere come il valore di "y" può variare in funzione della variabile "x". La linea contenente i valori di controllo della varianza è chiamata linea di regressione lineare.
Se la variabile esplicativa "x" ha un solo valore, verrà chiamata la regressione regressione lineare semplice.