korrelation betyder en likhet eller förhållandet mellan två saker, människor eller idéer. Det är en likhet eller likvärdighet som finns mellan två olika hypoteser, situationer eller objekt.
Inom området statistik och matematik hänvisar korrelation till ett mått mellan två eller flera variabler som är relaterade.
Termen korrelation är ett kvinnligt substantiv som kommer från latin korrelat.
Ordet korrelation kan ersättas med synonymer som: relation, ekvivalens, nexus, korrespondens, analogi och anslutning.
Korrelationskoefficient
I statistiken Pearsons korrelationskoefficient (r), som också kallas korrelationskoefficienten produkt-momentum, mäter förhållandet som finns mellan två variabler inom samma metriska skala.
Funktionen för korrelationskoefficienten är att bestämma styrkan i förhållandet som finns mellan uppsättningar kända data eller information.
Värdet på korrelationskoefficienten kan variera mellan -1 och 1 och det erhållna resultatet definierar om korrelationen är negativ eller positiv.
För att tolka koefficienten är det nödvändigt att veta att 1 betyder att korrelationen mellan variablerna är perfekt positivt och -1 betyder att det är perfekt negativ. Om koefficienten är lika med 0 betyder det att variablerna inte är beroende av varandra.
I statistiken finns också Spearman korrelationskoefficient, uppkallad efter statistikern Charles Spearman. Funktionen för denna koefficient är att mäta intensiteten i förhållandet mellan två variabler, oavsett om de är linjära eller inte.
Spearman-korrelationen bedömer om intensiteten i förhållandet mellan de två analyserade variablerna kan mätas med en monoton funktion (matematisk funktion som bevarar eller inverterar ordningsrelationen första).
Beräkning av Pearsons korrelationskoefficient
Metod 1) Beräkning av Pearsons korrelationskoefficient med hjälp av kovarians och standardavvikelse.
Var
sXYär kovariansen;
sx och syrepresenterar standardavvikelsen för variablerna x och y.
I det här fallet innebär beräkningen att först hitta kovariansen mellan variablerna och standardavvikelsen för var och en av dem. Dela sedan kovariansen genom att multiplicera standardavvikelserna.
Ofta innehåller uttalandet antingen standardavvikelserna för variablerna eller kovariansen mellan dem, bara genom att tillämpa formeln.
Metod 2) Beräkning av Pearsons korrelationskoefficient med rådata (ingen kovarians eller standardavvikelse).
Med denna metod är den mest direkta formeln följande:
Om vi till exempel antar att vi har data med n = 6 observationer av två variabler: glukosnivå (y) och ålder (x), följer beräkningen följande steg:
Steg 1) Bygg tabellen med befintlig data: i, x, y och lägg till tomma kolumner för xy, x² och y²:
Steg 2: Multiplicera x och y för att fylla kolumnen “xy”. Till exempel i rad 1 har vi: x1y1 = 43 × 99 = 4257.
Steg 3: Kvadrera värdena i kolumn x och spela in resultaten i kolumn x². Till exempel, i den första raden kommer vi att ha x12 = 43 × 43 = 1849.
Steg 4: Gör samma sak som i steg 3, använd nu kolumn y och registrera kvadrat för dina värden i kolumn y². Till exempel, i första raden har vi: y12 = 99 × 99 = 9801.
Steg 5: Hämta summan av alla kolumnnummer och placera resultatet i kolumnfoten. Till exempel är summan av kolumn Ålder X lika med 43 + 21 + 25 + 42 + 57 + 59 = 247.
Steg 6: Använd ovanstående formel för att erhålla korrelationskoefficienten:
Så vi har:
Beräkning av Spearmans korrelationskoefficient
Beräkningen av Spearmans korrelationskoefficient är lite annorlunda. För det måste vi organisera våra data i följande tabell:
1. Med i paragrafen två datapar måste vi presentera dem i tabellen. Till exempel:
2. I kolumnen "Ranking A" kommer vi att sortera observationerna som är i "Date A" stigande "1" det lägsta värdet i kolumnen och n (totalt antal observationer) det högsta värdet i kolumnen "Datum" DE". I vårt exempel är det:
3. Vi gör detsamma för att få kolumnen "Ranking B" med nu observationerna i "Data B" -kolumnen:
4. I kolumn "d" lägger vi skillnaden mellan de två rankningarna (A - B). Här spelar signalen ingen roll.
5. Kvadratera vart och ett av värdena i kolumn "d" och spela in i kolumn d²:
6. Sammanfatta all data från kolumn "d²". Detta värde är Σd². I vårt exempel Σd² = 0 + 1 + 0 + 1 = 2
7. Nu använder vi Spearmans formel:
I vårt fall är n lika med 4, eftersom vi tittar på antalet datalinjer (vilket motsvarar antalet observationer).
8. Slutligen ersatte vi data i föregående formel:
linjär regression
Linjär regression är en formel som används för att uppskatta det möjliga värdet för en variabel (y) när värdena för andra variabler (x) är kända. Värdet på "x" är den oberoende eller förklarande variabeln och "y" är den beroende variabeln eller svaret.
Linjär regression används för att se hur värdet på "y" kan variera som en funktion av variabeln "x". Linjen som innehåller varianskontrollvärden kallas linjär regressionslinje.
Om den förklarande variabeln "x" har ett enda värde kommer regression att anropas enkel linjär regression.