Временные ряды
Временные ряды — это последовательность наблюдений, собранных или записанных в определенные моменты времени. Основная цель анализа временных рядов заключается в понимании динамики и закономерностей во времени, что позволяет делать прогнозы на будущее. Вот некоторые ключевые аспекты, связанные с временными рядами:
1. Компоненты временных рядов
Временные ряды обычно состоят из нескольких компонентов:
- Тренд (Trend): Долгосрочное движение или направление ряда. Тренд может быть восходящим, нисходящим или оставаться постоянным.
- Сезонность (Seasonality): Повторяющиеся колебания, происходящие в определенные временные периоды (например, месяцы или кварталы).
- Цикличность (Cyclicity): Колебания, которые происходят с некоторой периодичностью, но не обязательно с фиксированным интервалом (например, экономические циклы).
- Случайные колебания (Noise): Случайные изменения, которые не поддаются объяснению.
2. Методы анализа временных рядов
Существует несколько методов анализа временных рядов:
- Скользящие средние (Moving Averages): Метод, который сглаживает временной ряд, усредняя значения за определенные промежутки времени.
- Экспоненциальное сглаживание (Exponential Smoothing): Метод, который придает больший вес последним наблюдениям.
- ARIMA (AutoRegressive Integrated Moving Average): Модель, которая объединяет авторегрессию, дифференцирование и скользящие средние для анализа временных рядов.
- SARIMA (Seasonal ARIMA): Расширение модели ARIMA, учитывающее сезонность.
- Prophet: Модель, разработанная Facebook для прогнозирования временных рядов с учетом сезонных эффектов и праздников.
3. Прогнозирование временных рядов
Прогнозирование — это процесс использования исторических данных для предсказания будущих значений. Основные методы прогнозирования включают:
- Прогнозирование на основе тренда: Использование тренда для предсказания будущих значений.
- Прогнозирование на основе сезонности: Учет сезонных колебаний в прогнозах.
- Комбинированные методы: Использование нескольких моделей для получения более точного прогноза.
4. Оценка моделей временных рядов
Для оценки качества моделей временных рядов используются различные метрики:
- MSE (Mean Squared Error): Среднеквадратичная ошибка, измеряющая среднюю квадратуру разности между предсказанными и фактическими значениями.
- MAE (Mean Absolute Error): Средняя абсолютная ошибка, измеряющая среднее значение абсолютных ошибок.
- MAPE (Mean Absolute Percentage Error): Средняя абсолютная процентная ошибка, показывающая относительное отклонение прогнозов от фактических значений.
5. Применения временных рядов
Анализ временных рядов используется в различных областях, таких как:
- Экономика: Прогнозирование ВВП, инфляции и других экономических индикаторов.
- Финансы: Прогнозирование цен акций и валют.
- Метеорология: Прогнозирование погоды.
- Производство: Управление запасами и планирование производства.
Заключение
Анализ временных рядов — это мощный инструмент, позволяющий выявлять закономерности и делать прогнозы на основе исторических данных. С правильными методами и оценками можно значительно улучшить качество прогнозов и принимать более обоснованные решения.
Блокнот с моими исследованиями находится здесь.
Описание работы
В данной работе была проведена оценка нескольких моделей временных рядов для прогнозирования продаж. Основное внимание было уделено методам Prophet и SARIMAX, а также их вариациям с учетом экзогенных переменных и разных параметров.
Подбор параметров моделей
- Prophet:
- Для модели Prophet был использован базовый метод, а также его вариации, включающие:
- Box-Cox преобразование для улучшения распределения данных.
- Учет праздников, что позволяет модели лучше захватывать сезонные эффекты.
- Для модели Prophet был использован базовый метод, а также его вариации, включающие:
- Auto ARIMA:
- Использован автоматизированный метод подбора наилучших параметров (p, d, q) для модели ARIMA.
- Также проведены эксперименты с экзогенными переменными, которые потенциально могут влиять на продажи.
- SARIMAX:
- Модель SARIMAX была обучена с различными наборами параметров:
- Исходная модель SARIMAX без экзогенных переменных.
- Модель SARIMAX с экзогенными переменными, что позволило учесть дополнительные факторы.
- SARIMAX с подбираемыми наилучшими параметрами (p, d, q) и сезонными (P, D, Q, s).
- Модель SARIMAX была обучена с различными наборами параметров:
Сравнение моделей
В результате сравнения моделей по трем метрикам (MSE, MAE, MAPE) были получены следующие результаты:
Метод | MSE | MAE | MAPE |
---|---|---|---|
Prophet | 24.680305 | 4.032057 | 22.233153 |
Auto ARIMA | 70.907815 | 6.650232 | 28.894886 |
Prophet Box-Cox Inverse | 24.215373 | 3.995935 | 21.762779 |
Prophet с праздниками | 24.949507 | 4.061328 | 22.420432 |
Prophet Box-Cox | 219.055600 | 13.502198 | 57.891796 |
Auto ARIMA с экзогенными | 70.907815 | 6.650232 | 28.894886 |
Исходный SARIMAX | 70.907815 | 6.650232 | 28.894886 |
SARIMAX с экзогенными | 23.547316 | 3.873271 | 20.171214 |
TBATS model | 64.837757 | 6.335531 | 0.271269 |
SARIMAX с экзогенными и лучшими параметрами | 27.473960 | 4.082589 | 19.3731 |
Анализ результатов
- Лучшие модели:
- Модель SARIMAX с экзогенными и лучшими параметрами показала наилучшие результаты среди всех моделей с наименьшими значениями MAPE (19.37) и приемлемыми значениями MSE (27.47), MAE (4.08).
- Prophet Box-Cox Inverse также продемонстрировала хорошие результаты, особенно в MAPE (21.76), однако MSE и MAE были хуже, чем у SARIMAX с экзогенными переменными.
- Проблемные модели:
- Модель Prophet Box-Cox продемонстрировала значительно худшие результаты, что может указывать на проблемы с преобразованием данных.
- Auto ARIMA и исходный SARIMAX показали наименьшую эффективность, что может быть связано с отсутствием экзогенных переменных или неправильным подбором параметров.
Выбор лучшей модели
На основании проведенного анализа, SARIMAX с экзогенными и лучшими параметрами была выбрана в качестве лучшей модели для прогнозирования продаж. Эта модель показала наименьшие значения ошибок, что свидетельствует о её высокой точности и способности учитывать влияния дополнительных факторов.
Таким образом, использование экзогенных переменных и дальнейший подбор параметров оказались ключевым решением для улучшения качества прогноза в данной задаче.