кореляція означає схожість або відносини між двома речами, людьми чи ідеями. Це подібність або еквівалентність, яка існує між двома різними гіпотезами, ситуаціями чи об’єктами.
У галузі статистики та математики кореляція відноситься до міри між двома або більше змінними, які пов'язані між собою.
Термін кореляція - це іменник жіночого роду, що походить від латинської співвіднести.
Слово співвідношення можна замінити такими синонімами, як: відношення, еквівалентність, зв'язок, відповідність, аналогія та зв'язок.
Коефіцієнт кореляції
У статистиці Коефіцієнт кореляції Пірсона (r), який також називають коефіцієнтом кореляції твір-імпульс, вимірює взаємозв'язок, що існує між двома змінними в межах однієї метричної шкали.
Функція коефіцієнта кореляції полягає у визначенні міцності взаємозв'язку, що існує між наборами відомих даних або інформації.
Значення коефіцієнта кореляції може коливатися від -1 до 1, і отриманий результат визначає, чи є кореляція негативною чи позитивною.
Для інтерпретації коефіцієнта необхідно знати, що 1 означає, що кореляція між змінними є
ідеальний позитив і -1 означає, що це так ідеальний негатив. Якщо коефіцієнт дорівнює 0, це означає, що змінні не залежать одна від одної.У статистиці також є Коефіцієнт кореляції Спірмена, названий на честь статистика Чарльза Спірмена. Функція цього коефіцієнта полягає у вимірюванні інтенсивності взаємозв'язку між двома змінними, незалежно від того, є вони лінійними чи ні.
Кореляція Спірмена служить для оцінки того, чи інтенсивність взаємозв'язку між двома аналізованими змінними може бути виміряна монотонною функцією (математичною функцією, яка зберігає або інвертує відношення порядку початковий).
Розрахунок коефіцієнта кореляції Пірсона
Метод 1) Розрахунок коефіцієнта кореляції Пірсона з використанням коваріації та стандартного відхилення.
Де
sXY- коваріація;
sх і sрпредставляють стандартне відхилення, відповідно, змінних x та y.
У цьому випадку обчислення передбачає спочатку знаходження коваріації між змінними та стандартного відхилення кожної з них. Потім розділіть коваріацію, помноживши стандартні відхилення.
Часто твердження вже надає або стандартні відхилення змінних, або коваріацію між ними, лише застосовуючи формулу.
Метод 2) Розрахунок коефіцієнта кореляції Пірсона з вихідними даними (без коваріації або стандартного відхилення).
За допомогою цього методу найбільш прямою формулою є така:
Наприклад, якщо припустити, що ми маємо дані з n = 6 спостережень за двома змінними: рівнем глюкози (y) та віком (x), обчислення виконується наступними кроками:
Крок 1) Створіть таблицю з наявними даними: i, x, y та додайте порожні стовпці для xy, x² та y²:
Крок 2: Помножте x та y, щоб заповнити стовпець “xy”. Наприклад, у рядку 1 ми матимемо: x1y1 = 43 × 99 = 4257.
Крок 3: Змістіть значення у стовпці x та запишіть результати у стовпці x². Наприклад, у першому рядку ми матимемо x12 = 43 × 43 = 1849.
Крок 4: Виконайте те саме, що на кроці 3, тепер використовуючи стовпець y і запишіть квадрат своїх значень у стовпець y². Наприклад, у першому рядку ми матимемо: y12 = 99 × 99 = 9801.
Крок 5: Отримайте суму всіх номерів стовпців і розмістіть результат у нижньому колонтитулі стовпця. Наприклад, сума стовпця Вік Х дорівнює 43 + 21 + 25 + 42 + 57 + 59 = 247.
Крок 6: Використовуйте наведену вище формулу для отримання коефіцієнта кореляції:
Отже, маємо:
Розрахунок коефіцієнта кореляції Спірмена
Розрахунок коефіцієнта кореляції Спірмена дещо інший. Для цього нам потрібно впорядкувати наші дані в наступній таблиці:
1. Маючи в твердженні 2 пари даних, ми повинні ввести їх у таблицю. Наприклад:
2. У стовпці "Рейтинг А" ми відсортуємо спостереження, які знаходяться в "Даті А" за зростанням, тобто "1" найнижче значення в колонці, і n (загальна кількість спостережень) найвище значення у стовпці "Дата" ". У нашому прикладі це:
3. Ми робимо те саме, щоб отримати стовпець "Рейтинг B", використовуючи зараз спостереження в стовпці "Дані B":
4. У стовпці "d" ми поміщаємо різницю між двома рейтингами (A - B). Тут сигнал не має значення.
5. Кожне зі значень у стовпці "d" запишіть у квадрат і запишіть у стовпець d²:
6. Підсумуйте всі дані зі стовпця "d²". Це значення Σd². У нашому прикладі Σd² = 0 + 1 + 0 + 1 = 2
7. Тепер ми використовуємо формулу Спірмена:
У нашому випадку n дорівнює 4, оскільки ми розглядаємо кількість рядків даних (що відповідає кількості спостережень).
8. Нарешті, ми замінили дані в попередній формулі:
лінійна регресія
Лінійна регресія - це формула, що використовується для оцінки можливого значення змінної (y), коли значення інших змінних (x) відомі. Значення "x" є незалежною або пояснювальною змінною, а "y" - залежною змінною або відповіддю.
Лінійна регресія використовується, щоб побачити, як значення "y" може змінюватися як функція змінної "x". Рядок, що містить значення перевірки дисперсії, називається лінією лінійної регресії.
Якщо пояснювальна змінна "x" має єдине значення, буде викликана регресія проста лінійна регресія.