correlatie betekent een overeenkomst of relatie tussen twee dingen, mensen of ideeën. Het is een overeenkomst of gelijkwaardigheid die bestaat tussen twee verschillende hypothesen, situaties of objecten.
Op het gebied van statistiek en wiskunde verwijst correlatie naar een maat tussen twee of meer variabelen die gerelateerd zijn.
De term correlatie is een vrouwelijk zelfstandig naamwoord dat uit het Latijn komt correlaat.
Het woord correlatie kan worden vervangen door synoniemen zoals: relatie, equivalentie, nexus, correspondentie, analogie en verbinding.
Correlatiecoëfficiënt
In de statistieken de Pearson's correlatiecoëfficiënt (r), ook wel de product-momentum-correlatiecoëfficiënt genoemd, meet de relatie die bestaat tussen twee variabelen binnen dezelfde metrische schaal.
De functie van de correlatiecoëfficiënt is het bepalen van de sterkte van de relatie die bestaat tussen sets van bekende gegevens of informatie.
De waarde van de correlatiecoëfficiënt kan variëren tussen -1 en 1 en het verkregen resultaat bepaalt of de correlatie negatief of positief is.
Om de coëfficiënt te interpreteren, is het noodzakelijk om te weten dat 1 betekent dat de correlatie tussen de variabelen is perfect positief en -1 betekent dat het zo is perfect negatief. Als de coëfficiënt gelijk is aan 0, betekent dit dat de variabelen niet van elkaar afhankelijk zijn.
In de statistieken is er ook de Spearman-correlatiecoëfficiënt, genoemd naar de statisticus Charles Spearman. De functie van deze coëfficiënt is om de intensiteit van de relatie tussen twee variabelen te meten, of ze nu lineair zijn of niet.
De Spearman-correlatie dient om te beoordelen of de intensiteit van de relatie tussen de twee geanalyseerde variabelen kan worden gemeten door een monotone functie (wiskundige functie die de orderelatie behoudt of omkeert) eerste).
Berekening van de correlatiecoëfficiënt van Pearson
Methode 1) Berekening van de correlatiecoëfficiënt van Pearson met behulp van covariantie en standaarddeviatie.
Waar
zoXYis de covariantie;
zoX en zojavertegenwoordigen respectievelijk de standaarddeviatie van de x- en y-variabelen.
In dit geval omvat de berekening eerst het vinden van de covariantie tussen de variabelen en de standaarddeviatie van elk van hen. Deel vervolgens de covariantie door de standaarddeviaties te vermenigvuldigen.
Vaak geeft de verklaring al ofwel de standaarddeviaties van de variabelen, ofwel de covariantie daartussen, gewoon door de formule toe te passen.
Methode 2) Berekening van de correlatiecoëfficiënt van Pearson met onbewerkte gegevens (geen covariantie of standaarddeviatie).
Met deze methode is de meest directe formule als volgt:
Als we er bijvoorbeeld van uitgaan dat we gegevens hebben met n=6 waarnemingen van twee variabelen: glucoseniveau (y) en leeftijd (x), volgt de berekening deze stappen:
Stap 1) Bouw de tabel met bestaande gegevens: i, x, y, en voeg lege kolommen toe voor xy, x² en y²:
Stap 2: Vermenigvuldig x en y om de kolom "xy" te vullen. In regel 1 hebben we bijvoorbeeld: x1y1 = 43 × 99 = 4257.
Stap 3: Vier de waarden in kolom x en noteer de resultaten in kolom x². In de eerste regel hebben we bijvoorbeeld x12 = 43 × 43 = 1849.
Stap 4: Doe hetzelfde als in stap 3, gebruik nu kolom y en noteer het kwadraat van uw waarden in kolom y². In de eerste regel hebben we bijvoorbeeld: y12 = 99 × 99 = 9801.
Stap 5: Verkrijg de som van alle kolomnummers en plaats het resultaat in de kolomvoettekst. De som van kolom Leeftijd X is bijvoorbeeld gelijk aan 43+21+25+42+57+59 = 247.
Stap 6: Gebruik de bovenstaande formule om de correlatiecoëfficiënt te verkrijgen:
Dus we hebben:
Berekening van Spearman's correlatiecoëfficiënt
De berekening van Spearman's correlatiecoëfficiënt is een beetje anders. Daarvoor moeten we onze gegevens in de volgende tabel ordenen:
1. Als we in de verklaring 2 gegevensparen hebben, moeten we ze in de tabel introduceren. Bijvoorbeeld:
2. In de kolom "Ranking A" sorteren we de waarnemingen die in "Datum A" staan oplopend, zijnde “1” de laagste waarde in de kolom, en n (totaal aantal waarnemingen) de hoogste waarde in de “Datum” kolom DE". In ons voorbeeld is dat:
3. We doen hetzelfde om de kolom "Ranking B" te verkrijgen, waarbij we nu de waarnemingen in de kolom "Data B" gebruiken:
4. In kolom “d” zetten we het verschil tussen de twee Rankings (A - B). Hier maakt het signaal niet uit.
5. Vier elk van de waarden in kolom "d" en noteer in kolom d²:
6. Tel alle gegevens uit kolom "d²" op. Deze waarde is Σd². In ons voorbeeld Σd² = 0+1+0+1 = 2
7. Nu gebruiken we de formule van Spearman:
In ons geval is n gelijk aan 4, als we kijken naar het aantal datalijnen (wat overeenkomt met het aantal waarnemingen).
8. Ten slotte hebben we de gegevens in de vorige formule vervangen:
lineaire regressie
Lineaire regressie is een formule die wordt gebruikt om de mogelijke waarde van een variabele (y) te schatten wanneer de waarden van andere variabelen (x) bekend zijn. De waarde van "x" is de onafhankelijke of verklarende variabele en "y" is de afhankelijke variabele of het antwoord.
Lineaire regressie wordt gebruikt om te zien hoe de waarde van "y" kan variëren als functie van de variabele "x". De regel die de variantiecontrolewaarden bevat, wordt de lineaire regressielijn genoemd.
Als de verklarende variabele "x" een enkele waarde heeft, wordt de regressie aangeroepen eenvoudige lineaire regressie.