Временные ряды

regression3

Временные ряды — это последовательность наблюдений, собранных или записанных в определенные моменты времени. Основная цель анализа временных рядов заключается в понимании динамики и закономерностей во времени, что позволяет делать прогнозы на будущее. Вот некоторые ключевые аспекты, связанные с временными рядами:

1. Компоненты временных рядов

Временные ряды обычно состоят из нескольких компонентов:

  • Тренд (Trend): Долгосрочное движение или направление ряда. Тренд может быть восходящим, нисходящим или оставаться постоянным.
  • Сезонность (Seasonality): Повторяющиеся колебания, происходящие в определенные временные периоды (например, месяцы или кварталы).
  • Цикличность (Cyclicity): Колебания, которые происходят с некоторой периодичностью, но не обязательно с фиксированным интервалом (например, экономические циклы).
  • Случайные колебания (Noise): Случайные изменения, которые не поддаются объяснению.

2. Методы анализа временных рядов

Существует несколько методов анализа временных рядов:

  • Скользящие средние (Moving Averages): Метод, который сглаживает временной ряд, усредняя значения за определенные промежутки времени.
  • Экспоненциальное сглаживание (Exponential Smoothing): Метод, который придает больший вес последним наблюдениям.
  • ARIMA (AutoRegressive Integrated Moving Average): Модель, которая объединяет авторегрессию, дифференцирование и скользящие средние для анализа временных рядов.
  • SARIMA (Seasonal ARIMA): Расширение модели ARIMA, учитывающее сезонность.
  • Prophet: Модель, разработанная Facebook для прогнозирования временных рядов с учетом сезонных эффектов и праздников.

3. Прогнозирование временных рядов

Прогнозирование — это процесс использования исторических данных для предсказания будущих значений. Основные методы прогнозирования включают:

  • Прогнозирование на основе тренда: Использование тренда для предсказания будущих значений.
  • Прогнозирование на основе сезонности: Учет сезонных колебаний в прогнозах.
  • Комбинированные методы: Использование нескольких моделей для получения более точного прогноза.

4. Оценка моделей временных рядов

Для оценки качества моделей временных рядов используются различные метрики:

  • MSE (Mean Squared Error): Среднеквадратичная ошибка, измеряющая среднюю квадратуру разности между предсказанными и фактическими значениями.
  • MAE (Mean Absolute Error): Средняя абсолютная ошибка, измеряющая среднее значение абсолютных ошибок.
  • MAPE (Mean Absolute Percentage Error): Средняя абсолютная процентная ошибка, показывающая относительное отклонение прогнозов от фактических значений.

5. Применения временных рядов

Анализ временных рядов используется в различных областях, таких как:

  • Экономика: Прогнозирование ВВП, инфляции и других экономических индикаторов.
  • Финансы: Прогнозирование цен акций и валют.
  • Метеорология: Прогнозирование погоды.
  • Производство: Управление запасами и планирование производства.

Заключение

Анализ временных рядов — это мощный инструмент, позволяющий выявлять закономерности и делать прогнозы на основе исторических данных. С правильными методами и оценками можно значительно улучшить качество прогнозов и принимать более обоснованные решения.

Блокнот с моими исследованиями находится здесь.

Описание работы

В данной работе была проведена оценка нескольких моделей временных рядов для прогнозирования продаж. Основное внимание было уделено методам Prophet и SARIMAX, а также их вариациям с учетом экзогенных переменных и разных параметров.

Подбор параметров моделей

  1. Prophet:
    • Для модели Prophet был использован базовый метод, а также его вариации, включающие:
      • Box-Cox преобразование для улучшения распределения данных.
      • Учет праздников, что позволяет модели лучше захватывать сезонные эффекты.
  2. Auto ARIMA:
    • Использован автоматизированный метод подбора наилучших параметров (p, d, q) для модели ARIMA.
    • Также проведены эксперименты с экзогенными переменными, которые потенциально могут влиять на продажи.
  3. SARIMAX:
    • Модель SARIMAX была обучена с различными наборами параметров:
      • Исходная модель SARIMAX без экзогенных переменных.
      • Модель SARIMAX с экзогенными переменными, что позволило учесть дополнительные факторы.
      • SARIMAX с подбираемыми наилучшими параметрами (p, d, q) и сезонными (P, D, Q, s).

Сравнение моделей

В результате сравнения моделей по трем метрикам (MSE, MAE, MAPE) были получены следующие результаты:

Метод MSE MAE MAPE
Prophet 24.680305 4.032057 22.233153
Auto ARIMA 70.907815 6.650232 28.894886
Prophet Box-Cox Inverse 24.215373 3.995935 21.762779
Prophet с праздниками 24.949507 4.061328 22.420432
Prophet Box-Cox 219.055600 13.502198 57.891796
Auto ARIMA с экзогенными 70.907815 6.650232 28.894886
Исходный SARIMAX 70.907815 6.650232 28.894886
SARIMAX с экзогенными 23.547316 3.873271 20.171214
TBATS model 64.837757 6.335531 0.271269
SARIMAX с экзогенными и лучшими параметрами 27.473960 4.082589 19.3731

Анализ результатов

  1. Лучшие модели:
    • Модель SARIMAX с экзогенными и лучшими параметрами показала наилучшие результаты среди всех моделей с наименьшими значениями MAPE (19.37) и приемлемыми значениями MSE (27.47), MAE (4.08).
    • Prophet Box-Cox Inverse также продемонстрировала хорошие результаты, особенно в MAPE (21.76), однако MSE и MAE были хуже, чем у SARIMAX с экзогенными переменными.
  2. Проблемные модели:
    • Модель Prophet Box-Cox продемонстрировала значительно худшие результаты, что может указывать на проблемы с преобразованием данных.
    • Auto ARIMA и исходный SARIMAX показали наименьшую эффективность, что может быть связано с отсутствием экзогенных переменных или неправильным подбором параметров.

Выбор лучшей модели

На основании проведенного анализа, SARIMAX с экзогенными и лучшими параметрами была выбрана в качестве лучшей модели для прогнозирования продаж. Эта модель показала наименьшие значения ошибок, что свидетельствует о её высокой точности и способности учитывать влияния дополнительных факторов.

Таким образом, использование экзогенных переменных и дальнейший подбор параметров оказались ключевым решением для улучшения качества прогноза в данной задаче.

Written on October 4, 2024
  • Возврат на главную страницу