Что такое Корреляция


Корреляция — это сходство или взаимосвязь между двумя вещами, людьми или идеями. Означает сходство или эквивалентность, существующие между двумя гипотезами, ситуациями или вещами.

В области статистики и математики корреляция относится к мере между переменными (двумя или более), связанными между собой.

Слово корреляция является существительным женского рода, произошло от латинского correlatiōne ("cum" (одновременно) + "relatio" (отношение)), читается как "коррелатионе" и означает "соотношение" или "взаимосвязь".

Слово "корреляция" может быть заменено синонимами, такими как: связь, зависимость, соотношение, взаимосвязь, взаимозависимость и взаимосоответствие.

Корреляционный анализ

Цель коэффициента корреляции заключается в том, чтобы определить интенсивность соотношения, которое существует между известными наборами данных или другой известной информации.

Значение коэффициента корреляции может варьироваться от -1 до 1, и полученный результат определяет, является ли корреляция отрицательной или положительной.

Чтобы интерпретировать коэффициент, необходимо знать, что 1 означает, что корреляция между переменными является полной положительной, а -1 означает, что она является полной отрицательной. Если коэффициент равен 0, то переменные не зависят друг от друга.

Коэффициент корреляции Пирсона (Pearson)

В статистике коэффициент корреляции Пирсона (r-Пирсона), который также называется коэффициентом корреляции момента продукта Пирсона (или PPMCC, или PCC), измеряет взаимосвязь между двумя переменными в одной и той же метрической шкале.

Расчет коэффициента корреляции Пирсона

Метод 1) Расчет коэффициента корреляции Пирсона с использованием ковариации и стандартного отклонения 

pearson formula

Где:

Sxy.person.2это ковариация,

Sx.person2это стандартное отклонение переменной x,

syperson2это стандартное отклонение переменной y.

                                                                                                                                                     В этом случае расчет включает в себя сначала поиск ковариации между переменными и стандартное отклонение каждой из них.

Затем нужно разделить ковариацию на умножение из двух стандартных отклонений — сделайте дробь и поставьте ковариацию сверху, а умножение из двух стандартных отклонений — снизу.

Часто в данных задач уже есть либо стандартные отклонения переменных, либо ковариация между ними, остаётся только применить формулу.

Метод 2) Расчет коэффициента корреляции Пирсона с исходными данными (без ковариации или стандартного отклонения)

При таком методе наиболее лёгкая формула выглядит следующим образом:

pearson.formula

Например, если предположить, что у нас есть данные с n = 6 наблюдениями двух переменных: уровня глюкозы (y) и возраста (x). Например, это статистические данные шести человек, от которых мы знаем их возраст и уровень глюкозы. На следующей таблице вы увидите эти данные: у первого человека, которому 43 года, уровень глюкозы 99, у второго, которому 21 год, уровень глюкозы 65, у третьего, которому 25 лет, глюкоза 79 и так далее. Вычисление следует производить по следующим шагам.

Шаг 1: Заполнить таблицу следующим образом: внести существующие данные i, x, y и добавить пустые столбцы для xy, x², y². 

shag1

Шаг 2: Умножить x и y, чтобы заполнить столбец “xy”. Например, в первой строке будет x1y1 = 43 × 99 = 4257. 

shag2

Шаг 3: Взять значение столбца x и возвести его в квадрат, записать результат в столбце x². Например, в первой строке в нашей таблице будет x12 = 43 × 43 = 1849. 

shag3

Шаг 4: Сделать то же самое, что и в шаге 3, но теперь используйте столбец y и запишите ваши вычисления в столбце y². Например, в первой строке в нашей таблице будет y12 = 99 × 99 = 9801. 

shag4

Шаг 5: Сделать сумму каждого из столбцов и поместить результат внизу, к каждой колонке. Например, сумма столбца возраст x равна 43 + 21 + 25 + 42 + 57 + 59 = 247. 

shag5

Шаг 6: Использовать формулу коэффициента корреляции. 

pearson.formula

pearson.reshenie

Диапазон коэффициента корреляции от -1 до 1. Наш результат равен 0,5298 или 52,98 %. Это означает, что переменные имеют умеренную положительную корреляцию.

Т.е. возраст и уровень глюкозы зависят друг от друга (т. к. коэффициент 0,5298 далёк от 0), но не очень сильно (т. к. коэффициент всё же очень далёк и от 1). А положительная, так как коэффициент больше чем 0, это означает, что глюкоза и возраст поднимаются вместе, а не наоборот (т. е. чем выше возраст, тем выше уровень глюкозы).

Коэффициент корреляции Спирмена

В статистике также существует коэффициент корреляции Спирмена, который назван в честь статистика Чарльза Эдварда Спирмена (Spearman).

Цель этого коэффициента заключается в измерении интенсивности соотношения между двумя переменными, независимо от того, являются ли они линейными или нет.

Корреляция Спирмена служит для оценки того, может ли интенсивность взаимосвязи между двумя анализируемыми переменными быть измерена монотонной функцией (математическая функция, которая сохраняет или инвертирует соотношение начальной последовательности).

Как считать коэффициент корреляции Спирмена

spearman formula

Расчет коэффициента корреляции Спирмена уже немного отличается от предыдущей. Для этого необходимо организовать имеющиеся данные в следующую таблицу. 

spearman

1. У вас должны быть две пары данных, соответствующих друг другу. Вы должны внести их в эту таблицу. Например, дирекция ресторана хочет узнать, есть ли связь между количеством заказов бутылок воды и количеством заказов десертов. Директор взял наугад данные 4-х столиков. Таким образом, у него получились две пары данных: где “Data А” — это заказы десертов, а “Data B” — заказы воды (т. е. первый столик заказал 7 десертов и 8 бутылок воды, второй — 6 десертов и 3 бутылки с водой и т. д.):

data 1 data b

2. В столбце "Ranking А" мы будем классифицировать наблюдения, которые находятся в "Data А", нарастающим образом: "1" является самым низким значением в столбце и n (общее количество наблюдений) — самым высоким значением в столбце "Data А". В нашем примере это: 

data a data b rank a

3. Сделайте то же самое позиционирование (классификацию наблюдений)  для второго столбца “Data B”, записав это в столбце “Ranking B”.

ranking b

4. В столбце "d" посчитайте разницу между двумя последними столбцами-ранкингами (A - B). Знак здесь учитывать не нужно (в следующем шаге узнаете почему). 

rankings d

5. Возведите во вторую степень каждое из значений, полученное в столбце "d".

rankings d v kvadrate

6. Сделайте сумму всех данных, которые у вас получились в столбце «d2». Это будет Σd². В нашем примере Σd² = 0+1+0+1 = 2.

7. Теперь используем формулу Спирмена.

formula Spearman

В нашем случае n = 4, мы это видим по количеству пар данных (соответствует числу наблюдений).

n par dannih

8. И наконец, замените данные в формуле.

spearman reshenie

Наш результат равен 0,8 или 80 %. Это означает, что переменные имеют положительную корреляцию.

Т. е. заказы бутылок воды и заказы десертов клиентами этого ресторана зависят друг от друга (т. к. коэффициент 0,8 далёк от 0), но не полностью (т. к. коэффициент очень близок к 1, но не равен 1). А положительная, так как коэффициент больше чем 0, это означает, что количество воды и количество десертов увеличиваются вместе, а не наоборот (т. е. чем выше количество потребляемой воды, тем выше количество потребляемых десертов).

Линейная регрессия

Это формула, используемая для оценки возможного значения переменной (y), когда известны значения других переменных (x).

Значение «x» является независимой переменной или предиктором, а «y» зависимая переменная (также переменная отклика) или ответ на заданный вопрос.

Линейная регрессия используется для проверки того, как значение «y» может меняться в зависимости от переменной «x». Прямая, содержащая значения проверки этой вариации, называется линией линейной регрессии.

Если отношение будет между зависимой переменной (“y”) и независимой переменной (“x”), регрессия будет называться простой линейной регрессией.

Простая линейная регрессия

Yi = β0 + β1Xi + εi

Где:

β0 — сдвиг (длина отрезка, отсекаемого на координатной оси прямой Y)

β1 — наклон прямой Y,

εi— случайная ошибка переменной Y в i-м наблюдении.

prostaya lineinaia regressia

Смотрите также значение Логарифм