В фокусе
Читать...
ГлавнаяРубрикиОбщий взглядСовременные способы обработки временных рядов на примере анализа влияния эпидемиологической обстановки на электроэнергетику в России
28.10.2020

Современные способы обработки временных рядов на примере анализа влияния эпидемиологической обстановки на электроэнергетику в России

Аннотация

Предмет. Анализ временных рядов является краеугольным камнем решения большого класса задач, от наблюдения состояния объекта и управления технологическими процессами вплоть до прогнозирования и долгосрочного планирования.

Цели. Курс на цифровизацию экономики, использование технологий искусственного интеллекта, успехи даталогии, смена парадигмы, когда автоматизированные системы управления все чаще рассматриваются как киберфизические системы, предъявляют новые требования к способам обработки временных рядов.

Методология. Для обработки временных рядов использовались стандартные библиотеки и методы анализа. Новизна предлагаемой технологии состоит в подготовке, преобразовании и обработке данных исключительно в оперативной памяти, с гарантированным сохранением исходных данных.

Результаты. В качестве основных исходных данных были использованы почасовые значения генерации и потребления в России с целью оценки влияния эпидемиологической обстановки и карантинных мероприятий на электроэнергетику в стране. Это влияние легко отслеживается, но его степень оказалась значительно меньше первоначальных прогнозов, что внушает оптимизм. Предложенные архитектурные решения и способы обработки временных рядов продемонстрировали удобство использования, высокую производительность и наглядную визуализацию результатов.

Введение

Качество данных, содержащихся во временных рядах, непосредственно определяет возможность и полезность их применения для решения практических задач. Согласно ГОСТ «Системы менеджмента качества. Основные положения и словарь» [1], основными критериями качества данных являются точность, надежность, доступность и своевременность. Хорошо известны ключевые факторы снижения качества:

  • «шум» (посторонние значения);

  • пропущенные значения;

  • дублирующиеся значения;

  • аномальные значения и противоречия;

  • значения, не соответствующие формату.

Системы оперативного управления класса SCADA, значительную часть функциональности которых составляет обработка временных рядов данных (time series data) и их визуализация, содержат модули, осуществляющие предобработку данных путем очистки и оптимизации. К лучшим практикам, которые складывались годами, можно отнести добавление к записям кодов качества и использование нескольких меток времени. Например, метка времени момента измерения, которая формируется на полевом уровне, может дополняться меткой времени создания записи в базе данных центра управления. Дополнительная информация, содержащаяся в кодах качества, позволяет при обработке учесть нарушение физических пределов или пропуски данных, не затрагивая при этом сами данные, что является положительным моментом. Однако он не имеет места при использовании различных методов оптимизации, когда данные сжимаются или их размерность понижается каким-либо другим способом. Это приводит к тому, что данные оптимизируются и адаптируются для решения конкретной задачи и одновременно снижается их ценность, вплоть до полной бесполезности для решения других задач. Серьезный урон нанесли решения по сжатию данных, которые принимались 10–20 лет назад, когда стоимость хранения была достаточно высока, а парадигма больших данных (big data) – «собирать и хранить столько данных, сколько возможно, потому что сможете извлечь из них пользу» – еще не сформировалась. В большинстве отраслей, в том числе и в энергетике, аналитики и специалисты по науке о данных (data science) лишены возможности анализа первичных исторических данных глубиной более 3–5 лет. Это сильно ограничивает возможности извлечения скрытых знаний и закономерностей, например, с целью организации технического обслуживания оборудования на основе диагностики и прогнозирования состояния (predictive maintenance).

Качество временных рядов приобретает особое значение для цифровой экономики, которая определяется как хозяйственная деятельность, в которой «ключевым фактором производства являются данные в цифровом виде» [2]. Парадигма цифровой экономики предлагает и комплексный подход к обеспечению качества сбора и анализа данных, основанный на внедрении платформенных решений отраслевого масштаба. В сфере распределенной энергетики проект по разработке такой платформы под названием «"Платформа» (https://a-platform.ru/) начался в 2019 году в рамках Национальной технологической инициативы по направлению «Энерджинет» (головной исполнитель – АО «РТСофт»). В настоящее время завершается этап проектирования «"Платформы», а ее реализация начнется осенью 2020 года и продлится до 2022, включая пилотные внедрения.

Проектирование аналитических приложений «∀Платформы»

Из мирового опыта построения платформенных решений известно, что успеха добились только те, которые изначально предлагали модули, направленные на решение прикладных задач. Наличия инфраструктурных компонентов, облегчающих разработку программного обеспечения, недостаточно для формирования экосистемы пользователей. Поэтому уже на этапе проектирования «"Платформы» большое внимание уделяется будущим аналитическим приложениям, изучается возможность и целесообразность использования в них различных существующих продуктов и инструментов, создаются прототипы ключевых функций, в том числе предназначенных для обработки временных рядов.

Типовая архитектура аналитического приложения, демонстрирующая взаимодействие компонентов в рамках информационного потока «с точки зрения пользователя» представлена на рис. 1. Пользователи приложения непосредственно взаимодействуют только с Генератором отчетов и средствами Интерактивной визуализации, а остальные компоненты функционируют в автоматическом режиме без участия человека. Согласно принятым проектным решениям, платформа будет предоставлять большой набор средств реализации компонентов с широкими возможностями по настройке и быстрой сборке конкретных приложений, а также готовые аналитические приложения в мощной облачной вычислительной среде с удаленным доступом.

Рис. 1. Типовая архитектура аналитического приложения

Для приложений обработки временных рядов возможные реализации архитектурных компонентов, рассмотренные на этапе проектирования, приведены в таб. 1. Примеры результатов, полученных при помощи прототипов таких приложений, представлены в последующих разделах настоящей статьи.

Таб. 1. Возможные реализации компонентов

Компонент

Возможные реализации

Интерактивная визуализация

Панель (dashboard), композиция (mashup), диаграммы, таблицы, инфографика, текстовая аналитика

Генератор отчетов

 

Отчеты: автоматические (по расписанию), ситуационные (по событиям), ad hoc (по запросу)

Аналитика

 

Системы поддержки принятия решений (СППР, англ. DSS), аналитическая обработка (OLAP), анализ данных (Data Mining)

Информационные модели

Обогащение общей информационной модели электроэнергетики (Common Information Model, CIM), цифровые двойники

Поиск и индексация

Elasticsearch

Средства моделирования

AnyLogic, R, Python, JupyterLab, Open Source

Базы данных

 

Реляционные БД, нереляционные БД, файловые хранилища, распределенная файловая система HDFS (для больших данных), специализированные БД класса time series databases (TSD)

Функции выгрузки – преобразования – загрузки (Extract, Transform, Load – ETL)

Адекватные источникам и базам данных решения

Сбор данных

Существующие протоколы передачи данных

Источники данных, методы и инструменты

В качестве источника данных будем использовать открытую информацию, предоставляемую АО «Системный оператор Единой энергетической системы» и АО «Администратор торговой системы оптового рынка электроэнергии». Данные о генерации и потреблении в ЕЭС и ОЭС для долговременного хранения загружались в БД MySQL и имели следующий вид: Код записи, Метка времени, Генерация, Мощность потребления (МВт), таб. 2.

Таб. 2. Фрагмент временного ряда

id

datetime

generation

consumption

29180

2020-04-30 19:00:00

113004

112155

29181

2020-04-30 20:00:00

112874

112531

 

Дополнительно для отработки технологии обогащения данных использовались данные о средней температуре наружного воздуха в ЕЭС России и ОЭС и информация о частоте электрического тока в ЕЭС России, публикуемая ОАО «СО ЕЭС» в соответствии с Постановлением Правительства Российской Федерации от 21.01.2004 № 24 «Об утверждении стандартов раскрытия информации субъектами оптового и розничных рынков электрической энергии». Для анализа был взят промежуток с 2017-01-01T00:00:00 по 2020-04-30T23:00:00. Выбор именно такого промежутка объясняется необходимостью оценки долговременных трендов за полные последние три года и возможностью оценки влияния карантина за первые месяцы 2020 года.

Результаты, представленные в настоящей статье, были получены при помощи прототипа приложения обработки временных рядов, включающего следующие компоненты:

  • Генератор отчетов: Jupyter Notebook, R Markdown;

  • Визуализация: ggplot2;

  • Аналитика: dplyr и другие библиотеки репозитория https://cran.r-project.org/;

  • Базы данных: MySQL – хранение после ETL, in-memory – обработка и анализ;

  • Сбор данных:

Для визуализации трендов на диаграммах и 95-процентного коридора вероятности использовалась функция локализованной полиномиальной регрессии (LOESS).

Прототип аналитического приложения был размещен на выделенном сервере в облаке MS Azure (Standard B4ms, 4 vcpus, 16 GiB memory). Операционная система Ubuntu 18.04.4 LTS. Языком программирования был выбран R.

Отрабатывалась также технология, позволяющая избежать недостатков, перечисленных во введении. С этой целью данные, расположенные в MySQL, не подвергались никаким преобразованиям, имитируя этим долговременное хранилище «сырых» данных. Все необходимые операции по предобработке и обработке выполнялись уже в оперативной памяти:

  • выбор временного интервала для анализа;

  • проверка на отсутствие пропусков, дубликатов и аномальных значений;

  • преобразования с использованием синтаксиса SQL и его расширений.

Даже на этом простом примере были получены результаты, позволившие уточнить планируемую технологию предобработки данных в «"Платформе», позволяющую оптимальным образом выполнить все необходимые преобразования, не затрагивая при этом исходные данные. Важность этого требования поясним на простом примере. Предположим, исходные данные содержали пропущенные значения, которые автоматически заменили средними, что совершенно логично и правильно с точки зрения наблюдения непрерывного технологического процесса. Но распределение пропущенных значений содержало в себе информацию о количестве и распределении во времени случаев отказа оборудования, линий связи и т. п. Аналогично появление шума в данных, частота которого много больше характерных времен процесса, может сигнализировать о деградации сенсоров или дает нам косвенную информацию о ненаблюдаемых величинах.

На рис. 2 – предлагаемая технология обработки данных. Временные ряды, находящиеся в любой из систем хранения, открываются только на чтение и загружаются в оперативную память с учетом запрошенного набора данных и временного интервала. Все формализуемые операции по предобработке загружаются в виде фрагментов исполняемого кода. Исправления и замены, если их логика не поддается программированию, находятся во вспомогательной БД и применяются к набору данных. Таким образом, мы можем выполнять операции по предобработке и преобразованию, оптимизированные для каждой задачи, не затрагивая исходные данные.

Рис. 2. Предлагаемая технология обработки данных

Проведенные замеры времени выполнения различных операций подтвердили целесообразность использования оперативной памяти для ускорения вычислений. Например, загрузка типичного временного ряда из 30 тыс. значений занимала 34 мс, последующие преобразования, включающие в себя фильтрацию, группировку и выполнение статистических функций, - 7 мс. Это открывает возможность создания систем класса Intelligence amplification, выполняющих роль советчика в темпе, приближенном к реальному времени. Для больших наборов данных необходимо будет принять меры к адекватному увеличению объема оперативной памяти или использовать решения на основе распределенных вычислений (MapReduce).

Для тестирования подсистемы визуализации использовалось построение температурной карты по всему массиву данных (26 280 рядов, метка времени, 2 значения) о генерации и потреблении, рис. 3.

Рис. 3. Нагрузочное тестирование подсистемы визуализации

Полное время вывода диаграммы не превышало 2,3 секунды.

Влияние карантинных мероприятий

До сегодняшнего дня было опубликовано значительное количество прогнозов и мнений относительно того, как карантинные мероприятия повлияют на энергосистему России. Интерес к этой теме весьма практический, так как по снижению энергопотребления можно быстро и достаточно объективно оценить степень влияния на экономику. Первые оценки были сделаны разными авторами еще в конце марта 2020 года. Например, аналитики Центра макроэкономического анализа и краткосрочного прогнозирования сообщали, что по России в целом энергопотребление снизилось на 10 % (по состоянию на 14:00 мск относительно уровня недельной давности), с поправкой на температуру – на 8 %. С помощью этих показателей центру удалось грубо оценить снижение экономической активности в России. «С учетом того, что эластичность генерации добавленной стоимости предварительно оценивается нами в 0,4–0,6, снижение экономической активности можно пока очень грубо оценить примерно в 16 % по России в целом и в 22 % по ЦФО», – отметили в ЦМАКП [3].

Анализируя временной ряд, можно заметить, что объявленный в конце марта режим самоизоляции четко фиксируется на графике энергопотребления. Этот спад и послужил основой для большого числа пессимистичных прогнозов, которые, к счастью, не оправдались.

Разумеется, наибольший интерес будут представлять более точные данные, особенно их динамика – в какую сторону меняется ситуация и как быстро. Полный апрель месяц карантинных мероприятий представляется идеальной выборкой для детального анализа. В нем не будет влияния високосного года, как в феврале, и переноса выходных дней, как в марте и мае.

Построим осциллограммы почасовых значений мощностей потребления по ЕСЭ и энергосистемам за последние три полных года.

Линейная интерполяция позволяет оценить сложившиеся тренды изменения потребления:

  • небольшой рост по ЕЭС;

  • рост в ОЭС Сибири;

  • значительный рост ОЭС Востока, рис. 4.

Рис. 4. Рост потребления ЭЭ в ОЭС Востока

Также можно сделать выводы относительно амплитуды суточных и сезонных колебаний.

Снижение влияния карантинных мероприятий на потребление электроэнергии наглядно представлена на рис. 5. Значительная разница между апрелем 2019 и 2020 года в начале месяца практически незаметна в конце.

Рис. 5. Суточное потребление, сравнение апреля 2019 и 2020 г.

Для простоты сравнения величин отобразим эту же информацию в процентах, рис. 6.

Рис. 6. Степень влияния карантина на потребление ЭЭ в России

Снижение потребления в начале месяца на 6 % быстро сошло на нет. А среднее значение полностью согласуется с данными СО ЕЭС: «По оперативным данным АО «СО ЕЭС», потребление электроэнергии в Единой энергосистеме России в апреле 2020 года составило 82,9 млрд кВт•ч, что на 2,9 % меньше объема потребления за апрель 2019 года» [4].

Суточный профиль потребления

Отдельно было изучено изменение суточного профиля потребления в структуре ОЭС. Можно сказать, что профиль стал более гладкий. Например, в масштабе ЕЭС сгладился 11–12 часовой пик, а в ОЭС Юга, Северо-Запада и Центра, рис. 7, можно говорить об изменении привычек населения: люди стали позже ложиться спать.

Рис. 7. Изменение суточного профиля

Влияние температуры

Тема влияния погодных факторов на энергопотребление хорошо изучена [4]. В нашем исследовании дополнительная информация о температуре использовалась для отработки технологии обогащения данными из другого набора, повышающая их ценность для анализа.

Рис. 8. Корреляция температуры и энергопотребления

Сильную, практически линейную обратную зависимость видно на рис. 8. Коэффициент корреляции, вычисленный разными методами, составил:

  • Пирсона – 0.961;

  • Спирмена – 0.936;

  • Кендалла – 0.782.

Полное время преобразования данных – 43 мс.

Необходимость вычислять температурную поправку в нашем случае отсутствует, для доказательства сошлемся на пресс-релиз Системного оператора: «Среднемесячная температура воздуха в апреле текущего года по ЕЭС России составила 5,7 °C, что на 0,7 °C выше ее значения в том же месяце 2019 года. Незначительное отклонение среднемесячной температуры не оказало существенное влияние на потребление электроэнергии в апреле текущего года» [5].

Влияния карантинных мероприятий на частоту в ЕЭС России

Частота в энергосистеме является, с одной стороны, самым простым, а с другой – самым комплексным показателем. На него в интегрированном виде оказывают влияние разные факторы:

  • размер энергосистемы;

  • структура генерации;

  • технологии диспетчерского управления;

  • качество планирования прогноза потребления;

  • техническое совершенство систем первичного и вторичного регулирования и т. д. [6].

В качестве источника данных будем использовать открытую информацию, предоставляемую АО «СО ЕЭС», – частота в ЕЭС России (Гц) за период с 2017-01-01 00:00:00 по 2020-04-30 23:00:00. На рис. 9 видно, что наиболее вероятное значение частоты было 50 Гц или чуть выше, с редкими и незначительными отклонениями.

Рис. 9. Гистограмма распределения количества значений

Проведем сравнение средних дневных значений между апрелем месяцем 2019 и 2020 года. Возможность использовать средние значения была доказана на гистограмме, поскольку существенные отклонения даже на большом промежутке времени – очень редкое явление.

Рис. 10. Частота в ЕЭС России, апрель 2019 и 2020 г.

На рис 10 видно, что влияние нельзя назвать значительным. Можно даже отметить большую стабильность частоты, особенно в третьей декаде месяца. Вероятно, это связано с адаптацией механизмов планирования потребления, с одной стороны, и, как мы уже знаем, уменьшением влияния карантина на энергопотребление к концу месяца, с другой. Было также измерено влияние выходных и рабочих дней, а также суточные колебания частоты в разбивке по часам. Размер статьи не позволяет привести весь объем полученных результатов анализа, но даже самое пристальное изучение не повлияло на вывод. Карантинные мероприятия или не явились вызовом для системы управления ЕЭС России, или энергетики с ними успешно справились. Настолько успешно, что не удалось найти даже следы существенных отклонений.

Заключение

Работа выполнена при поддержке гранта на проведение научно-исследовательских и опытно-конструкторских работ № 34/19 от 29 ноября 2019 года между Фондом поддержки проектов Национальной технологической инициативы и АО «РТСофт».

В результате был продемонстрирован подход к решению аналитических задач на базе перспективной российской программной платформы управления распределенной энергетикой. Оценена возможность использования свободного программного обеспечения. Подтверждена возможность и целесообразность использования преобразований в оперативной памяти для ускорения вычислений.

Список литературы

  1. ГОСТ Р ИСО 9000-2015. Национальный стандарт Российской Федерации. Системы менеджмента качества. Основные положения и словарь.

  2. Указ Президента Российской Федерации от 9 мая 2017 г. № 203 «О Стратегии развития информационного общества в Российской Федерации на 2017–2030 годы».

  3. ЦМАКП: «Энергопотребление в ЦФО падает на 10 %, деловая активность – на 20 %», https://peretok.ru/news/distribution/21895/

  4. Макоклюев Б. И. Анализ и планирование электропотребления. М.: Энергоатомиздат, 2008.

  5. Пресс-релиз «Потребление электроэнергии в ЕЭС России в апреле 2020 года уменьшилось на 2,9 % по сравнению с апрелем 2019 года», СО ЕЭС, 07.05.2020.

  6. СТО 59012820.27.100.003-2012 «Регулирование частоты и перетоков активной мощности в ЕЭС России. Нормы и требования», СО ЕЭС.

Павел Васильевич ЛИТВИНОВ,
начальник аналитического отдела, АО «РТСофт»
litvinov_pv@rtsoft.ru

Версия для печати3339 просмотров.
Оцените статью по: