Оптимизация работы графических процессоров и кластеров для разработки крупномасштабных социально-экономических моделей на суперкомпьютерах
Оптимизация работы графических процессоров и кластеров для разработки крупномасштабных социально-экономических моделей на суперкомпьютерах
Аннотация
Код статьи
S207751800011122-3-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Абрамов Владимир Иванович 
Должность: Научный сотрудник
Аффилиация: ЦЭМИ РАН
Адрес: Российская Федерация, Москва
Евдокимов Дмитрий Сергеевич
Должность: Младший научный сотрудник
Аффилиация: ЦЭМИ РАН
Адрес: Российская Федерация, Москва
Аннотация

Статья посвящена анализу технологии оптимизации производительности суперкомпьютеров для разработки крупномасштабных экономических моделей, основанной на двух положениях. Во-первых, в работе приведена распараллеленная архитектура оптимизированной среды для разработки многомерных динамических стохастических экономических моделей. Во-вторых, описан алгоритм векторизации вычислительных ядер для AVX- процессоров. 

Ключевые слова
высокопроизводительные вычисления, адаптивные разреженные сети, имитационные модели, суперкомпьютеры
Источник финансирования
Работа выполнена при поддержке гранта Российского научного фонда, проект № 19-18-00240
Классификатор
Получено
05.08.2020
Дата публикации
05.09.2020
Всего подписок
25
Всего просмотров
1612
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf
Доступ к дополнительным сервисам
Дополнительные сервисы только на эту статью
Дополнительные сервисы на все выпуски за 2020 год
1

Введение

Оптимизация сложных вычислительных процессов суперкомпьютера позволяет использовать его функционал с большей эффективностью и открывает возможности построения детализированных динамических моделей для изучения различных социально-экономических процессов. Для эффективного решения данных вопросов могут быть использованы динамические стохастические модели общего равновесия с неоднородными агентами для фактического анализа действующей политики. Агент-ориентированные модели (далее – АОМ), и модели перекрывающихся поколений (далее - МПП) [2, 13] являются важными инструментами при проведении имитационных экспериментов лицами, принимающими управленческие решения.

2

В настоящее время существует несколько областей, в которых за последние 10–20 лет детерминированные модели МПП эффективно применялись для анализа налоговой и фискальной политики. Для того, чтобы иметь возможность более детально решать важные политические вопросы, в прототип модели должна быть включена случайная вероятность события, основанная на статистических данных за последние годы, а также учтены экономические процессы в сфере государственного управления и вероятность наступления событий, которые влияют на будущие управленческие решения [12]. Зачастую при проведении подобных экспериментов, исследователи, которые используют теорию вероятности в моделях, сталкиваются с неустойчивым равновесием, поскольку стохастические совокупные шоки влияют на каждого агента по-разному. Эти эффекты не компенсируются даже с учетом усреднения совокупности всех факторов.

3

В статье рассмотрены возможности использования последних разработок в области вычислительной математики и массового параллельного аппаратного обеспечения для вычисления глобальных зависимостей общих стохастических моделей МПП. Стоит отметить, что совмещение МПП и АОМ позволит добиться большей детализации и точности в прогнозных и вероятностных событиях, тем самым получая возможность к расширению функционала имитационного моделирования. Таким образом, представленная в работе технология оптимизации в перспективе может открыть возможности для решения социально-экономических проблем с беспрецедентным реализмом [5].

4

Современные суперкомпьютеры и их производительность. Производительность суперкомпьютеров растет и позволяет решать сложнейшие вычислительные задачи. Первым компьютером, который преодолел отметку в один петафлопс, является суперкомпьютер IBM Roadrunner [15]. В целом, технологии, связанные с высокопроизводительными вычислительными машинами, изначально были предназначены для моделирования ядерных реакций [1]. На сегодняшний день наработки в этой области шагнули далеко вперед, и суперкомпьютеры используются для решения различных задач и моделирования всевозможных детализированных процессов с огромным объемом вычислений. Одним из важнейших показателей в развитии суперкомпьютерных технологий является суммарный коэффициент производительности, который рассчитывается отдельно для каждой страны. Далее (см. рис. 1) представлены показатели суммарного коэффициента для России, США, Китая, Евросоюза и Японии.

5

Рисунок 1. Суммарная производительность всех суперкомпьютеров США (US), стран Евросоюза (EU), России (RU), Китая (CH) и Японии (JP). Источник: [1]

6 Ярко выраженный скачок по показателю суммарной производительности суперкомпьютеров в интервале с 1994 по 2018 гг. продемонстрировали Япония, США и Евросоюз. Набрав стремительный рост, Китай вырвался в лидеры к 2015 году, опередив Японию и Евросоюз. В 2019 году Китай и США практически сравнялись в этом показателе, и время от времени меняют друг друга на лидирующей позиции.
7

Наряду со стремительным развитием суперкомпьютерных технологий особое внимание уделяется задачам, связанным с оптимизацией вычислений. Скорость, помноженная на эффективность, дает результат, который позволяет выйти в лидеры в области развития высокопроизводительной техники. Далее в работе приведены новые технологии оптимизации вычислений, которые могут быть применены в контексте АОМ и МПП [6].

8

Метод, основанный на адаптивных разреженных сетях.

Методы построения адаптивных разреженных сетей (далее – АРС) активно используются для решения оптимизационных задач, которые возникают из-за парадигмы многомерного пространства состояний, а именно повторного построения и оценки многовариантных функций [11, 14].

9 Рассмотрим представление отрезка-d-линейной функции f: Ω → R для некоторой ширины сетки hn = 21 − n с уровнем дискретизации n ∈ N. С целью дискретизации Ω можно выполнить ограничение области интересов компактом Ω = [0, 1] d, где d - размерность модели МПП. Такая ситуация может быть достигнута для большинства других областей путем повторного масштабирования и усечения исходной области. Чтобы сгенерировать приближение u функции f, используется разложение:
10 f (x)u (x) := j=1αjφj(x)                      1
11 Для N базисных функций φj и коэффициентов αj используются одномерные функции:
12 φl,ix=1,                                                       l=i=1,                max1-2l-1x-xl,i, 0,      i=0,, 2l-1>1,                2
13 После применения метода интерполяции разреженных сеток, основанного на иерархической декомпозиции пространства основной аппроксимации, вводятся иерархические наборы индексов Il:
14 xl,i=0.5,  l=i=1,                i21-l,     i=0,, 2l-1, l>1,         3
15 Использование метода интерполяции разреженных сеток, основанного на иерархической декомпозиции пространства основной аппроксимации подразумевает введение иерархических наборов индексов Il, которые приводят к иерархическим подпространствам Wl, представленным в виде соответствующего базиса φl: = {φl,i (x), i ∈ Il}.
16 Ili=1                                    if l=1,0i2,i even              if l=2,0i2lt-1, i odd                 else,          (4)
17 Иерархические базисные функции распространяются на многовариантный случай с использованием тензорных произведений:
18  φl,ixt=1dφlt,itxt,                   4,
19 где l и i - мультииндексы, указывающие на уровень и индекс основных одномерных функций верхнего слоя для каждого измерения. Они охватывают многомерные подпространства:
20 Wlspanφl,i:iIl                  (5)
21 с набором индексов Il , заданным многомерным расширением:
22 Ili :it=1,1td                         if l=1i:0it2,iteven, 1td   if l=2i:0it2lt-1, it odd,1td    else.          (6)
23 Пространство отрезка линейных функций Vn на декартовой сетке с размером ячейки hn для данного уровня n определяется прямой суммой пространств приращений:
24 Vnwl, lmax lt. ln           1td                     (7)
25 Затем, может быть однозначно приведен интерполянт функции f, а именно u x Vn  :
26 fxux=lniIlαl,iφl,ix.             (8)
27 Коэффициенты αli R , обычно вызывают иерархические сдвиги. Они представляют собой разницу между значениями функций на текущем и предыдущем уровнях интерполяции. Для достаточно гладкой функции f асимптотическая ошибка убывает как O(hn2) , но за счет затрат Ohn-2=O(h2nd) точек сетки, таким образом «страдая» от размерности [10]. Как следствие возникает вопрос, как можно построить дискретные аппроксимационные пространства, которые лучше, чем Vn, в том смысле, что одно и то же количество вложенных точек сетки приводит к более высокому порядку точности. Как вариант, для решения этой задачи может быть введение функции со смешанными и ограниченными вторыми производными. С помощью них можно показать, что иерархические коэффициенты быстро убывают, а именно αli=O (2-2|l|1) . Следовательно, иерархическое разбиение подпространства позволяет выбирать те Wl, которые вносят наибольший вклад в общую аппроксимацию. Это может быть сделано путем предыдущего выбора, в результате чего пространство разреженной сетки VnS уровня n определяется как:
28 VnS|l|1n+d-1Wl, |l|1=i=1dlt.         9,
29 где V3S состоит из иерархических пространств приращений W(l1, l2) для 1l1, l2n=3 . Число точек сетки, требуемых пространством VnS , будут иметь порядок O (2nnd-1) , что является значительным сокращением количества точек сетки, вычислительных затрат и требований к хранению информации, если проводить сравнение с декартовым пространством сетки. Затем, функцию f  VnS  vn можно разложить на:
30 f(x)u(x)= ln+d-1iIlαl,iφl,i(x),                 (10)
31

В случае, если функции не удовлетворяют требованиям гладкости или демонстрируют различные локальные особенности, они могут быть решены с помощью разреженных сеток, если используется пространственная адаптивность. Классическая конструкция разреженной сетки определяет априорный выбор точек сетки, оптимальный для функций с ограниченными смешанными производными второго порядка, а адаптивное уточнение может быть сделано на основе локального анализа ошибок выбора [10, 17, 18].

32

Повышение скорости выполнения суперкомпьютером интерполяции функции на примере стохастической модели МПП.

В данном разделе описан пример стохастической модели МПП, разработанной в виде массивной параллельной версии алгоритма временной итерации [16] для смешанных многомерных непрерывных/дискретных состояний, которые используют одну АРС на z ∈ Z на каждом шаге итерации. В [8] проведено распараллеливание данного алгоритма по гибридной схеме с использованием MPI [21], TBB [19] и CUDA, если на вычислительном узле присутствует GPU, а также вычислительных ядер, использующих AVX, AVX2 или AVX-512 векторизацию.

33

Существенным слабым местом в производительности при вычислении крупномасштабных экономических задач зачастую является задача интерполяции функций предыдущего шага итерации. При поиске решения системы уравнений в заданной точке для заданного скачка z алгоритм должен часто интерполироваться по функциям политик всех состояний pnext Ns = 16 из предыдущего шага итерации за один раз. Эти интерполяции обычно занимают до 99% времени вычислений, необходимого (см. пример [9]) для решения нелинейного набора уравнений, и при этом должны выполняться как можно быстрее, чтобы гарантировать быстрое принятия решения. Несмотря на наличие широко применяемого формата данных с плотной матрицей (см., например, [9]), для которого существуют высоко оптимизированные алгоритмы для выполнения задач, связанных с интерполяцией, необходимо внедрение нового, общего метода сжатия данных для АРС [20]. Данный метод позволит работать с 16 непрерывными измерениями, то есть с 59-мерными АРС одновременно. Сохранение вышеупомянутого плотного матричного формата для хранения функции политики предыдущей итерации для интерполяции гораздо меньше загружает объем памяти, что, в свою очередь, существенно замедляет интерполяцию и, следовательно, повышает скорость вычислений.

34

Заключение

В статье приведены позиции различных стран в рейтинге суммарной производительности суперкомпьютеров. Представлена наглядная демонстрация того, что, объединение АРС с эффективными структурами данных, алгоритмом итерации по времени (который имеет дело с рекурсивным характером постановки задачи), и с гибридными вычислительными парадигмами высокопроизводительных вычислений (которые резко сокращают время расчетов), оказывается эффективным методом для решения задач, связанных с разработкой АОМ- и МПП-моделей, а также проведения имитационных экспериментов на более сложных уровнях [3, 4]. Также в работе приведена гибридная схема распараллеливания, в которой используются современные парадигмы параллельных вычислений. Кроме того, представлена схема сжатия данных для АРС, которая позволяет сократить время вычислений, затрачиваемое на интерполяции, примерно в 4 раза.

35 Калибровка модели в сторону реалистичности воспроизведения процессов приводит к многомерным проблемам, которые до сих пор считаются неразрешимыми. Это объясняет, почему с помощью стохастических моделей МПП было проведено сравнительно небольшое количество экспериментов. В заключение, стоит отметить, что решение смешанных многомерных непрерывных/дискретных динамических стохастических экономических моделей формирует круг задач, как с точки зрения моделирования, так и с точки зрения алгоритмов вычислений.

Библиография

1. Абрамов С.М. Анализ развития суперкомпьютерной отрасли в России и в мире // Программные системы: теория и приложения. Институт программных систем им. А.К. Айламазяна Российской академии наук. 2019, № 3(42).

2. Макаров В.Л., Бахтизин А.Р., Сушко Е.Д. Мультиагентные системы и суперкомпьютерные технологии в общественных науках // Нейрокомпьютеры: разработка, применение. Радиотехника. 2017, № 5.

3. Макаров В.Л., Бахтизин А.Р., Сушко Е.Д., Сушко Г.Б. Моделирование социальных процессов на суперкомпьютерах: новые технологии // Вестник РАН. 2018, Том 88, №6.

4. Макаров В.Л., Бахтизин А.Р., Сушко Е.Д., Сушко Г.Б. Разработка агент-ориентированной демографической модели России и ее суперкомпьютерная реализация // Труды международной конференции. Суперкомпьютерный консорциум университетов России, Российская академия наук. 2018. С. 758-769.

5. Окрепилов В.В., Макаров В.Л., Бахтизин А.Р., Кузьмина С.Н. Применение суперкомпьютерных технологий для моделирования социально-экономических систем // Экономика региона. Институт экономики Уральского отделения РАН. 2015, № 2 (42).

6. Ракитский А.А., Рябко Б.Я. Теоретико-информационный подход к оценке производительности суперкомпьютеров // Вычислительные технологии. Институт вычислительных технологий Сибирского отделения РАН. 2018, № 1.

7. Bellman R. Adaptive Control Processes: A Guided Tour // Rand Corporation. Research studies. Princeton University Press. 1961.

8. Brumm J., Mikushin D., Scheidegger S., Schenk O. Scalable high-dimensional dynamic stochastic economic modeling // Journal of Computational Science. 2015, vol. 11.

9. Brumm J., Scheidegger S. Using adaptive sparse grids to solve high-dimensional dynamic models // Econometrica. 2017, vol. 85, № 5.

10. Bungartz H.-J., Dirnstorfer S. Multivariate quadrature on adaptive sparse grids // Computing. 2003, vol. 71.

11. Bungartz H.-J., Griebel M., Sparse grids // Acta Numerica. 2004, vol. 13.

12. David K. L. J., Bizer S. Taxation and uncertainty // The American Economic Review. 1989, vol. 79, №. 2.

13. Diamond P. A. National debt in a neoclassical growth model // American Economic Review. 1965, vol. 55, №. 5

14. Garcke J., Griebel M. Sparse Grids and Applications // Lecture Notes in Computational Science and Engineering. Springer. 2012.

15. Jones M.T. Optimizing supercomputer resource management with SLURM // IBM. URL: https://www.ibm.com/developerworks/ru/library/l-slurm-utility/index.html

16. Judd K. L. Numerical methods in economics // The MIT press. 1998.

17. Ma X., Zabaras N. An adaptive hierarchical sparse grid collocation algorithm for the solution of stochastic differential equations // J. Comput. Phys. 2009, vol. 228, № 8.

18. Pfluger D. Spatially adaptive refinement // In Sparse Grids and Applications, ser. Lecture Notes in Computational Science and Engineering, Garcke J., Griebel M. Eds. Berlin Heidelberg: Springer. 2012. pp. 243–262.

19. Reinders J. Intel Threading Building Blocks // 1st ed. Sebastopol, CA, USA: O’Reilly & Associates, Inc. 2007.

20. Scheidegger S., Mikushin D., K?ubler F., Schenk O. Rethinking large-scale economic modeling for efficiency: optimizations for GPU and Xeon Phi clusters // IEEE International Parallel and Distributed Processing Symposium. 2018. pp. 610-619.

21. Skjellum A., Gropp W., Lusk E. Using MPI // MIT Press. 1999.

Комментарии

Сообщения не найдены

Написать отзыв
Перевести