корелация означава сходство или връзка между две неща, хора или идеи. Това е сходство или еквивалентност, която съществува между две различни хипотези, ситуации или обекти.
В областта на статистиката и математиката корелацията се отнася до мярка между две или повече променливи, които са свързани.
Терминът корелация е съществително от женски род, което идва от латински корелират.
Думата корелация може да бъде заменена със синоними като: отношение, еквивалентност, връзка, кореспонденция, аналогия и връзка.
Коефициент на корелация
В статистиката Коефициент на корелация на Пиърсън (r), който също се нарича коефициент на корелация на продукт-инерция, измерва връзката, която съществува между две променливи в рамките на една и съща метрична скала.
Функцията на коефициента на корелация е да определи силата на връзката, която съществува между набори от известни данни или информация.
Стойността на коефициента на корелация може да варира между -1 и 1 и полученият резултат определя дали корелацията е отрицателна или положителна.
За да се интерпретира коефициентът, е необходимо да се знае, че 1 означава, че корелацията между променливите е перфектно положително и -1 означава, че е така перфектен негатив. Ако коефициентът е равен на 0, това означава, че променливите не зависят една от друга.
В статистиката има и Коефициент на корелация на Спирман, кръстен на статистика Чарлз Спиърман. Функцията на този коефициент е да измерва интензивността на връзката между две променливи, независимо дали те са линейни или не.
Корелацията на Спирман служи за оценка дали интензивността на връзката между двете анализирани променливи може да се измери с монотонна функция (математическа функция, която запазва или обръща връзката на реда първоначална).
Изчисляване на коефициента на корелация на Пиърсън
Метод 1) Изчисляване на коефициента на корелация на Пиърсън с помощта на ковариация и стандартно отклонение.
Където
сXYе ковариацията;
сх и супредставляват стандартното отклонение, съответно, на променливите x и y.
В този случай изчислението включва първо намиране на ковариацията между променливите и стандартното отклонение на всяка една от тях. След това разделете ковариацията, като умножите стандартните отклонения.
Често изразът вече предоставя или стандартните отклонения на променливите, или ковариацията между тях, само чрез прилагане на формулата.
Метод 2) Изчисляване на коефициента на корелация на Пиърсън със сурови данни (без ковариация или стандартно отклонение).
При този метод най-директната формула е следната:
Например, ако приемем, че имаме данни с n = 6 наблюдения на две променливи: ниво на глюкоза (y) и възраст (x), изчислението следва следните стъпки:
Стъпка 1) Изградете таблицата със съществуващи данни: i, x, y и добавете празни колони за xy, x² и y²:
Стъпка 2: Умножете x и y, за да попълните колоната „xy“. Например, в ред 1 ще имаме: x1y1 = 43 × 99 = 4257.
Стъпка 3: Квадратирайте стойностите в колона x и запишете резултатите в колона x². Например в първия ред ще имаме х12 = 43 × 43 = 1849.
Стъпка 4: Направете същото като в стъпка 3, като сега използвате колона y и запишете квадрата на вашите стойности в колона y². Например в първия ред ще имаме: y12 = 99 × 99 = 9801.
Стъпка 5: Вземете сумата от всички номера на колони и поставете резултата в долния колонтитул на колоната. Например сумата от колона Възраст X е равна на 43 + 21 + 25 + 42 + 57 + 59 = 247.
Стъпка 6: Използвайте горната формула, за да получите коефициента на корелация:
Така че имаме:
Изчисляване на коефициента на корелация на Спиърман
Изчисляването на коефициента на корелация на Спиърман е малко по-различно. За това трябва да организираме данните си в следната таблица:
1. Имайки в изявлението 2 двойки данни, трябва да ги въведем в таблицата. Например:
2. В колоната „Класиране А“ ще сортираме наблюденията, които са в „Дата А“ възходящо, бидейки „1“ най-ниската стойност в колоната и n (общ брой наблюдения) най-високата стойност в колоната „Дата“ НА ". В нашия пример е:
3. Правим същото, за да получим колоната „Класиране B“, като използваме сега наблюденията в колона „Data B“:
4. В колона „d“ поставяме разликата между двете класирания (A - B). Тук сигналът няма значение.
5. Квадратирайте всяка от стойностите в колона "d" и запишете в колона d²:
6. Сумирайте всички данни от колона "d²". Тази стойност е Σd². В нашия пример Σd² = 0 + 1 + 0 + 1 = 2
7. Сега използваме формулата на Спиърман:
В нашия случай n е равно на 4, тъй като разглеждаме броя на редовете за данни (което съответства на броя на наблюденията).
8. Накрая заменихме данните в предишната формула:
линейна регресия
Линейната регресия е формула, използвана за оценка на възможната стойност на променлива (y), когато стойностите на други променливи (x) са известни. Стойността на "x" е независимата или обяснителна променлива, а "y" е зависимата променлива или отговор.
Линейната регресия се използва, за да се види как стойността на "y" може да варира като функция на променливата "x". Линията, съдържаща стойностите за проверка на дисперсията, се нарича линия на линейна регресия.
Ако обяснителната променлива "x" има единична стойност, ще бъде извикана регресията проста линейна регресия.