korelacija znači sličnost ili odnos između dviju stvari, ljudi ili ideja. To je sličnost ili ekvivalencija koja postoji između dvije različite hipoteze, situacije ili predmeta.
U području statistike i matematike, korelacija se odnosi na mjeru između dvije ili više povezanih varijabli.
Pojam korelacija je imenica ženskog roda koja dolazi iz latinskog korelirati.
Riječ korelacija može se zamijeniti sinonimima kao što su: odnos, ekvivalencija, nexus, korespondencija, analogija i veza.
Koeficijent korelacije
U statistikama Pearsonov koeficijent korelacije (r), koji se naziva i koeficijent korelacije produkt-zamah, mjeri odnos koji postoji između dvije varijable unutar iste metričke skale.
Funkcija koeficijenta korelacije je utvrđivanje snage odnosa koji postoji između skupova poznatih podataka ili informacija.
Vrijednost koeficijenta korelacije može varirati između -1 i 1, a dobiveni rezultat definira je li korelacija negativna ili pozitivna.
Da bismo protumačili koeficijent, potrebno je znati da 1 znači da je korelacija između varijabli
savršena pozitiva a -1 znači da jest savršeni negativ. Ako je koeficijent jednak 0, to znači da varijable ne ovise jedna o drugoj.U statistici postoji i Spearmanov koeficijent korelacije, nazvan po statističaru Charlesu Spearmanu. Funkcija ovog koeficijenta je mjerenje intenziteta odnosa između dvije varijable, bile one linearne ili ne.
Spearmanova korelacija služi za procjenu je li intenzitet odnosa između dvije analizirane varijable može se mjeriti monotonom funkcijom (matematička funkcija koja čuva ili invertira odnos reda početni).
Proračun Pearsonovog koeficijenta korelacije
Metoda 1) Izračun Pearsonovog koeficijenta korelacije pomoću kovarijance i standardne devijacije.
Gdje
sXYje kovarijancija;
sx i sgpredstavljaju standardno odstupanje, odnosno varijabli x i y.
U ovom slučaju, proračun uključuje prvo pronalaženje kovarijance između varijabli i standardno odstupanje svake od njih. Zatim podijelite kovarijanciju množenjem standardnih odstupanja.
Izjava često daje ili standardna odstupanja varijabli, ili kovarijanciju između njih, samo primjenom formule.
Metoda 2) Izračun Pearsonovog koeficijenta korelacije sa sirovim podacima (bez kovarijance ili standardne devijacije).
Ovom metodom najizravnija je formula kako slijedi:
Na primjer, pod pretpostavkom da imamo podatke s n = 6 promatranja za dvije varijable: razinu glukoze (y) i dob (x), izračun slijedi ove korake:
Korak 1) Izradite tablicu s postojećim podacima: i, x, y i dodajte prazne stupce za xy, x² i y²:
Korak 2: Pomnožite x i y da popunite stupac "xy". Primjerice, u retku 1 imat ćemo: x1y1 = 43 × 99 = 4257.
Korak 3: Vrijednosti iznesite u stupac x i zabilježite rezultate u stupac x². Primjerice, u prvom ćemo retku imati x12 = 43 × 43 = 1849.
Korak 4: Učinite isto kao u koraku 3, sada koristeći stupac y i zapišite kvadrat svojih vrijednosti u stupac y². Primjerice, u prvom ćemo retku imati: y12 = 99 × 99 = 9801.
Korak 5: Dobijte zbroj svih brojeva stupaca i smjestite rezultat u podnožje stupca. Na primjer, zbroj stupca Dob X jednak je 43 + 21 + 25 + 42 + 57 + 59 = 247.
Korak 6: Koristite gornju formulu za dobivanje koeficijenta korelacije:
Tako imamo:
Proračun Spearmanova koeficijenta korelacije
Izračun Spearmanova koeficijenta korelacije malo je drugačiji. Za to moramo svoje podatke organizirati u sljedeću tablicu:
1. Imajući u izjavi 2 para podataka, moramo ih uvesti u tablicu. Na primjer:
2. U stupcu "Poredak A" sortirat ćemo zapažanja koja se nalaze u "Datumu A" uzlazno, odnosno "1" najmanja vrijednost u stupcu, a n (ukupan broj promatranja) najviša vrijednost u stupcu "Datum" THE ". U našem primjeru to je:
3. Isto radimo i za dobivanje stupca "Rangiranje B", koristeći sada opažanja u stupcu "Podaci B":
4. U stupac "d" stavljamo razliku između dva poretka (A - B). Ovdje signal nije važan.
5. Kvadrirajte svaku vrijednost u stupcu "d" i zapišite u stupac d²:
6. Zbroji sve podatke iz stupca "d²". Ova vrijednost je Σd². U našem primjeru Σd² = 0 + 1 + 0 + 1 = 2
7. Sada koristimo Spearmanovu formulu:
U našem slučaju, n je jednako 4, budući da gledamo broj podatkovnih linija (što odgovara broju promatranja).
8. Konačno, zamijenili smo podatke u prethodnoj formuli:
Linearna regresija
Linearna regresija formula je koja se koristi za procjenu moguće vrijednosti varijable (y) kada su vrijednosti ostalih varijabli (x) poznate. Vrijednost "x" neovisna je ili objašnjavajuća varijabla, a "y" je ovisna varijabla ili odgovor.
Linearna regresija koristi se da bi se vidjelo kako vrijednost "y" može varirati u funkciji varijable "x". Linija koja sadrži vrijednosti provjere varijance naziva se linija linearne regresije.
Ako objašnjavajuća varijabla "x" ima jednu vrijednost, pozvat će se regresija jednostavna linearna regresija.