corelația înseamnă o similitudine sau relația dintre două lucruri, oameni sau idei. Este o asemănare sau echivalență care există între două ipoteze, situații sau obiecte diferite.
În domeniul statisticii și matematicii, corelația se referă la o măsură între două sau mai multe variabile care sunt legate.
Termenul de corelație este un substantiv feminin care provine din latină corela.
Cuvântul corelație poate fi înlocuit cu sinonime precum: relație, echivalență, legătură, corespondență, analogie și conexiune.
Coeficient de corelație
În statistici Coeficientul de corelație al lui Pearson (r), care se mai numește coeficientul de corelație produs-impuls, măsoară relația care există între două variabile în cadrul aceleiași scale metrice.
Funcția coeficientului de corelație este de a determina puterea relației care există între seturile de date sau informații cunoscute.
Valoarea coeficientului de corelație poate varia între -1 și 1, iar rezultatul obținut definește dacă corelația este negativă sau pozitivă.
Pentru a interpreta coeficientul, este necesar să știm că 1 înseamnă că corelația dintre variabile este perfect pozitiv și -1 înseamnă că este negativ perfect. Dacă coeficientul este egal cu 0 înseamnă că variabilele nu depind unele de altele.
În statistici există și Coeficientul de corelație Spearman, numit după statisticianul Charles Spearman. Funcția acestui coeficient este de a măsura intensitatea relației dintre două variabile, indiferent dacă sunt liniare sau nu.
Corelația Spearman servește pentru a evalua dacă intensitatea relației dintre cele două variabile analizate poate fi măsurată printr-o funcție monotonă (funcție matematică care păstrează sau inversează relația de ordine iniţială).
Calculul coeficientului de corelație al lui Pearson
Metoda 1) Calculul coeficientului de corelație Pearson folosind covarianța și deviația standard.
Unde
sX Yeste covarianța;
sX și syreprezintă abaterea standard, respectiv, a variabilelor x și y.
În acest caz, calculul implică mai întâi găsirea covarianței dintre variabile și abaterea standard a fiecăreia dintre ele. Apoi împărțiți covarianța înmulțind abaterile standard.
Adesea, afirmația oferă deja fie abaterile standard ale variabilelor, fie covarianța dintre ele, doar prin aplicarea formulei.
Metoda 2) Calcularea coeficientului de corelație Pearson cu datele brute (fără covarianță sau deviație standard).
Cu această metodă, cea mai directă formulă este următoarea:
De exemplu, presupunând că avem date cu n = 6 observații ale două variabile: nivelul glucozei (y) și vârsta (x), calculul urmează acești pași:
Pasul 1) Construiți tabelul cu datele existente: i, x, y și adăugați coloane goale pentru xy, x² și y²:
Pasul 2: Înmulțiți x și y pentru a umple coloana „xy”. De exemplu, în linia 1 vom avea: x1y1 = 43 × 99 = 4257.
Pasul 3: pătrat valorile din coloana x și înregistrați rezultatele în coloana x². De exemplu, în prima linie vom avea x12 = 43 × 43 = 1849.
Pasul 4: Faceți la fel ca la Pasul 3, acum folosind coloana y și înregistrați pătratul valorilor dvs. în coloana y². De exemplu, în prima linie vom avea: y12 = 99 × 99 = 9801.
Pasul 5: obțineți suma tuturor numerelor de coloane și plasați rezultatul în subsolul coloanei. De exemplu, suma coloanei Vârsta X este egală cu 43 + 21 + 25 + 42 + 57 + 59 = 247.
Pasul 6: Utilizați formula de mai sus pentru a obține coeficientul de corelație:
Deci avem:
Calculul coeficientului de corelație al lui Spearman
Calculul coeficientului de corelație al lui Spearman este puțin diferit. Pentru aceasta, trebuie să ne organizăm datele în următorul tabel:
1. Având în enunț 2 perechi de date, trebuie să le introducem în tabel. De exemplu:
2. În coloana „Clasarea A”, vom ordona observațiile care se află în „Data A” crescătoare, fiind „1” cea mai mică valoare din coloană și n (numărul total de observații) cea mai mare valoare din coloana „Data” ". În exemplul nostru este:
3. Facem același lucru pentru a obține coloana „Clasamentul B”, folosind acum observațiile din coloana „Date B”:
4. În coloana „d” punem diferența între cele două Clasamente (A - B). Aici semnalul nu contează.
5. Păstrați fiecare dintre valorile din coloana "d" și înregistrați în coloana d²:
6. Sumați toate datele din coloana „d²”. Această valoare este Σd². În exemplul nostru Σd² = 0 + 1 + 0 + 1 = 2
7. Acum folosim formula lui Spearman:
În cazul nostru, n este egal cu 4, deoarece ne uităm la numărul de linii de date (care corespunde numărului de observații).
8. În cele din urmă, am înlocuit datele din formula anterioară:
regresie liniara
Regresia liniară este o formulă utilizată pentru a estima valoarea posibilă a unei variabile (y) atunci când valorile altor variabile (x) sunt cunoscute. Valoarea „x” este variabila independentă sau explicativă, iar „y” este variabila dependentă sau răspunsul.
Regresia liniară este utilizată pentru a vedea cum valoarea „y” poate varia în funcție de variabila „x”. Linia care conține valorile de verificare a varianței se numește linie de regresie liniară.
Dacă variabila explicativă „x” are o singură valoare, va fi apelată regresia regresie liniară simplă.