корреляция означает сходство или отношения между двумя вещами, людьми или идеями. Это сходство или эквивалентность между двумя разными гипотезами, ситуациями или объектами.
В области статистики и математики корреляция означает меру между двумя или более взаимосвязанными переменными.
Термин корреляция - это существительное женского рода, происходящее от латинского языка. соотносить.
Слово «корреляция» можно заменить такими синонимами, как: отношение, эквивалентность, связь, соответствие, аналогия и связь.
Коэффициент корреляции
В статистике Коэффициент корреляции Пирсона (r), который также называется коэффициентом корреляции продукта и импульса, измеряет взаимосвязь, существующую между двумя переменными в пределах одной метрической шкалы.
Функция коэффициента корреляции заключается в определении силы взаимосвязи, существующей между наборами известных данных или информации.
Значение коэффициента корреляции может варьироваться от -1 до 1, и полученный результат определяет, является ли корреляция отрицательной или положительной.
Чтобы интерпретировать коэффициент, необходимо знать, что 1 означает, что корреляция между переменными идеальный позитив и -1 означает, что это идеальный негатив. Если коэффициент равен 0, это означает, что переменные не зависят друг от друга.
В статистике также есть Коэффициент корреляции Спирмена, названный в честь статистика Чарльза Спирмена. Функция этого коэффициента заключается в измерении интенсивности взаимосвязи между двумя переменными, независимо от того, являются ли они линейными или нет.
Корреляция Спирмена служит для оценки того, насколько интенсивность взаимосвязи между двумя анализируемыми переменными может быть измерен монотонной функцией (математической функцией, которая сохраняет или инвертирует отношение порядка исходный).
Расчет коэффициента корреляции Пирсона
Метод 1) Расчет коэффициента корреляции Пирсона с использованием ковариации и стандартного отклонения.
Где
sXYковариация;
sИкс а также sупредставляют собой стандартное отклонение, соответственно, переменных x и y.
В этом случае расчет включает сначала нахождение ковариации между переменными и стандартного отклонения каждой из них. Затем разделите ковариацию, умножив стандартные отклонения.
Часто утверждение уже предоставляет либо стандартные отклонения переменных, либо ковариацию между ними, просто применяя формулу.
Метод 2) Расчет коэффициента корреляции Пирсона с исходными данными (без ковариации или стандартного отклонения).
Самая прямая формула этого метода выглядит следующим образом:
Например, если у нас есть данные с n = 6 наблюдениями двух переменных: уровня глюкозы (y) и возраста (x), расчет выполняется следующим образом:
Шаг 1) Создайте таблицу с существующими данными: i, x, y и добавьте пустые столбцы для xy, x² и y²:
Шаг 2: Умножьте x и y, чтобы заполнить столбец «xy». Например, в строке 1 мы будем иметь: x1y1 = 43 × 99 = 4257.
Шаг 3. Возведите значения в столбце x в квадрат и запишите результаты в столбец x². Например, в первой строке у нас будет x12 = 43 × 43 = 1849.
Шаг 4: Сделайте то же, что и на шаге 3, теперь используя столбец y и запишите квадрат ваших значений в столбце y². Например, в первой строке у нас будет: y12 = 99 × 99 = 9801.
Шаг 5: Получите сумму всех номеров столбцов и поместите результат в нижний колонтитул столбца. Например, сумма столбца Возраст X равна 43 + 21 + 25 + 42 + 57 + 59 = 247.
Шаг 6: Используйте приведенную выше формулу, чтобы получить коэффициент корреляции:
Итак, у нас есть:
Расчет коэффициента корреляции Спирмена.
Расчет коэффициента корреляции Спирмена немного отличается. Для этого нам нужно организовать наши данные в следующей таблице:
1. Имея в заявлении 2 пары данных, мы должны ввести их в таблицу. Например:
2. В столбце «Рейтинг A» мы отсортируем наблюдения, которые находятся в «Дата A» по возрастанию, «1» - наименьшее значение в столбце, а n (общее количество наблюдений) - максимальное значение в столбце «Дата». ". В нашем примере это:
3. Мы делаем то же самое, чтобы получить столбец «Рейтинг B», используя теперь наблюдения в столбце «Данные B»:
4. В столбце «d» мы помещаем разницу между двумя рейтингами (A - B). Здесь сигнал не имеет значения.
5. Возведите в квадрат каждое из значений в столбце «d» и запишите в столбец d²:
6. Просуммируйте все данные из столбца «d²». Это значение Σd². В нашем примере Σd² = 0 + 1 + 0 + 1 = 2
7. Теперь воспользуемся формулой Спирмена:
В нашем случае n равно 4, поскольку мы смотрим на количество строк данных (которое соответствует количеству наблюдений).
8. Наконец, мы заменили данные в предыдущей формуле:
линейная регрессия
Линейная регрессия - это формула, используемая для оценки возможного значения переменной (y), когда значения других переменных (x) известны. Значение «x» - это независимая или объясняющая переменная, а «y» - это зависимая переменная или ответ.
Линейная регрессия используется, чтобы увидеть, как значение «y» может изменяться в зависимости от переменной «x». Строка, содержащая значения проверки отклонения, называется линией линейной регрессии.
Если независимая переменная «x» имеет одно значение, регрессия будет вызываться простая линейная регрессия.