Для того чтобы улучшить ваш опыт на сайте, мы используем файлы cookies для персонализации контента и рекламы.
Нажмите Принять и закрыть чтобы дать согласие на использование cookies.

или посетите Политику конфиденциальности для получения дополнительной информации.

Метод наименьших квадратов

Метод наименьших квадратов (МНК) — это статистическая процедура для довольно точного прогнозирования поведения зависимых переменных.

Например, можно понять, как будет меняться товарооборот (значение "y") сети магазинов с изменением размеров торговой площади (значение "x").

Суть МНК — из всех линейных функций найти наилучшее приближение к реальности. Это можно сделать путём поиска функции с наименьшим отклонением (точнее по процессу МНК: поиск минимальной суммы квадратов отклонений значений y (игрек) от полученного уравнения регрессии).

Эти точки на картинке — наши данные, и мы пытаемся найти функцию типа y = a + bx (эту прямую линию на картинке), которая будет соответствовать наилучшим образом заданным значениям (нашим данным). Такая функция называется аппроксимирующей функцией (аппроксимация — приближение).

Решение МНК

Мы ищем уравнение линейной регрессии, которое выглядит так: y = ax + b

Где:

  • y – зависимая переменная
  • x – независимая переменная
  • a – коэффициент (это также наклон/градиент линии)
  • b – коэффициент (это также точка, где линия пересекает ось Y)

Метод 1

Шаги, которые мы будем делать для поиска y = ax + b (сейчас мы их все пройдём на примере):

Шаг 1: Для каждой точки (x, y) вычислить x² и xy.

Шаг 2: Суммировать все x, y, x² и xy, это даст нам Σx, Σy, Σx² и Σxy (если кто забыл, Σ означает "сумма").

Шаг 3: Рассчитать наклон a по этой формуле:

, где N – количество данных

Шаг 4: Рассчитать значение числа b:

, где N – количество данных

Шаг 5: Подставить найденные числа по местам в уравнение (y = ax + b)

Пример

После некоторых наблюдений, у нас появились данные о размерах и продажах некой торговой сети, у которой 5 магазинов:

Размер (x) Продажи (y)
2 4
3 6
5 8
7 10
9 12

Для наглядности, например, это магазины мороженого, и 2-метровая лавочка продаёт в месяц 4 тонны мороженого, 7 метровая — 10 тонн.

Шаг 1:

Сразу можно записать, что N = 5 (количество данных; т.е. всего у нас данные по пяти магазинам, ведь у нас 5 строк данных).

Для каждой точки (x, y) вычисляем x² и xy. Для этого, к уже существующим столбцам добавим ещё два: x² и xy.

  • x² получим путём возведения x (Размер) в квадрат
  • xy получим путём умножения одного на второе
x y xy
2 4 2² = 4 2 × 4 = 8
3 6 3² = 9 3 × 6 = 18
5 8 25 40
7 10 49 70
9 12 81 108

Шаг 2: Суммировать все x, y, x² и xy, это даст нам Σx, Σy, Σx² и Σxy (складываем каждый столбик):

x y xy
2 4 2² = 4 2 × 4 = 8
3 6 3² = 9 3 × 6 = 18
5 8 25 40
7 10 49 70
9 12 81 108
Σx = 26 Σy = 40 Σx² = 168 Σxy = 244

Шаг 3: Рассчитать a (наклон графика) по этой формуле:

, где N – количество данных

Помним, что N = 5, значит:

Шаг 4: Рассчитать значение числа b:

, где N – количество данных

Помним, что N = 5, значит:

Шаг 5: Подставить найденные числа по местам в уравнение

y = ax + b ⇒ y = 1,0976x + 2,29248

Готово!

Далее можем проверить. Можем составить вот такой график, вместе с данными точками и полученной функцией:

Действительно, полученная функция и точки "ходят рука об руку".

Также мы можем использовать эту функцию, чтобы понять, как будут зависеть продажи фирмы от размера помещения. Например: руководство хочет открыть магазин размером в 11,5 м². Для этого подставляем 11,5 вместо x:

y = 1,0976x + 2,29248 ⇒ y = 1,0976 × 11,5 + 2,29248 = 14,91488

Ответ: этот магазин размером в 11,5 м² будет продавать около 15 тонн мороженого в месяц.

Метод 2

Мы продолжаем искать уравнение линейной регрессии, которое выглядит так: y = ax + b.

Используем тот же пример с сетью магазинов.

Размер (x) Продажи (y)
2 4
3 6
5 8
7 10
9 12

Шаг 1: Опять суммируем все x, y, x² и xy, т.е. находим Σx, Σy, Σx² и Σxy (складываем каждый столбик):

x y xy
2 4 2² = 4 2 × 4 = 8
3 6 3² = 9 3 × 6 = 18
5 8 25 40
7 10 49 70
9 12 81 108
Σx = 26 Σy = 40 Σx² = 168 Σxy = 244

Шаг 2: Записать вот такую систему уравнений (так мы будем искать параметры a и b):

Шаг 3: Помним, что N = 5. Таким образом, из нашего примера получаем систему:

Лучше конечно её переписать красиво:

Шаг 4: Решить систему.

Находим a = 1,0976; b = 2,29248; и ставим по местам в функцию (y = ax + b). Получается y = 1,0976x + 2,29248

Готово!

Для проверки лучше составить график с данными точками и найденной функцией, как в методе 1.

Узнайте также про Метод Крамера, Стандартное отклонение и Корреляции.

Дата обновления 11/06/2021.