• Nenhum resultado encontrado

ТАБЛИЦА I С РАВНЕНИЕ М ЕТОДИК

IV. Б ЛАГОДАРНОСТИ

Работа выполнена при поддержке программы фундаментальных исследований президиума РАН (ГЗ 0306-2018-0012) и СО РАН (ГЗ 0306-2016-0018).

V.

З

АКЛЮЧЕНИЕ

В работе получены аналитические решения для расче- та математического ожидания и дисперсии числа ис- правных машин в распределенных масштабируемых вы- числительных системах при полном восстановлении.

Решения получены для моментов случайных величин, методом, предложенным в работе [13, 14]. Также для рассмотренного режима функционирования ВС получе- ны аналитические выражения для вероятностей состоя- ний системы и расчета размера резерва для поддержания ВС в состоянии высокой производительности.

С

ПИСОК

Л

ИТЕРАТУРЫ

[1] Khoroshevsky V.G. Architecture of computer systems. Moscow:

BMSTU, 2008, 520 p.

[2] Dongarra J. J., A. J. van der Steen High-performance computing sys- tems: Status and outlook, Acta Numerica (2012), pp. 1–96

[3] TOP500 Supercomputers Official Site. TOP500 Lists [сайт] [Элек- тронный ресурс] / URL: http://www.top500.org (дата обращения 16.02.2017).

[4] Nikolic S. High Performance Computing Directions: The Drive to Ex- aScale Computing. // Proceedings of the International Scientific Confe- rence "Parallel Computing Technologies (PaVT'2012). - Novosibirsk, 2012, URL: http://pavt.susu.ru/2012/talks/Nikolic.pdf (reference date 16.02.2017).

[5] Schroeder В., Gibson Garth A. A large-scale study of failures in high- performance computing systems // Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), Phila- delphia, PA, USA, June 25-28, 2006, 10 р.

[6] Kalyaev I.A., Korobkin V.V., Melnik E.V., Malakhov I.V. Fault- tolerant control computing complex of a VVER-type reactor of a nuc- lear reactor // Mechatronics, Automation, Control. - 2003.-No. 3. - P.143-146.

[7] S. Di, M. S. Bouguerra, L. Bautista-Gomez, and F. Cappello. Optimiza- tion of multilevel checkpoint model for large scale hpc applications. In Parallel and Distributed Processing Symposium, 2014 IEEE 28th Inter- national, pages 1181–1190, May 2014.

[8] Korneev V.V., Semenov D.V., Telegin P.N., Shabanov B.М. Fault- tolerant decentralized Grid resource management // Izvestiya Vuzov.

Electronics. 2015. No. 1, P. 83-89.

[9] Vishnevsky, V.M. Theoretical Foundations of Computer Network De- sign / V.M. Vishnevsky. - Moscow: Technosphere, 2003. - 512 p.

[10] Khoroshevsky V.G. Models of analysis and organization of large-scale distributed computer systems. // Electronic modeling. - Kiev, 2003. - Vol. 25, No. 6.

[11] Saati T.L.. Elements of queuing theory and its applications. 3rd ed. - Moscow: The Book House "LIBROKOM", 2010. - 520 p.

[12] Kleinrok L. Queuing theory. M.: Mechanical Engineering, 1979. - 432 p.

[13] Khoroshevsky V.G., Pavsky V.A., Pavsky K.V. Calculation of surviva- bility of distributed computer systems // Vestnik of Tomsk State Uni- versity. Management, Computer Science and Informatics. - 2011. – No.

2 (15). - P. 81-88.

[14] Pavsky V.A., Pavsky K.V., Khoroshevsky V.G. Calculation of the sur- vivability of distributed computer systems and the feasibility of solving problems // Artificial Intelligence. - 2006. – No. 4. - P. 28-34.

Павский Валерий Алексеевич родился в 1946 году. В 1978 году ему присвоена степень кандидата технических наук (Россия), в 2007 году присвоена степень доктора технических наук по специальности 05.13.15 и 05.13.17.

Заведующий Кафедрой высшей математики Кемеровского технологического института пищевой промышленности (Университет) (Россия) с 1979 г., профессор с 2008 г. В настоящее время является членом научно- исследовательской группы Лаборатории вычислительных систем Института физики полупроводников им. А. В. Ржанова СО РАН. Основные направления научных ис- следований-Информатика: распределенные вычислительные системы, живучесть вычис- лительных систем, Суперкомпьютерные технологии; Математика: вероятность и статистика; Математическая и вычислитель- ная биология; Пищевая Наука и технологии.

XIV Международная научно-техническая конференция АПЭП – 2018

150

Павский Кирилл Валерьевич родился в 1970 году (Россия). В 2004 г ему присвоена науч- ная степень кандидата технических наук, доктор технических наук (2014г), доцент (2014г). С 2001 года научный сотрудник Института физики полупроводников им.

А.В.Ржанова СО РАН (ИФП СО РАН) (Но- восибирск, Россия), с 2015 года заведующий Лабораторией вычислительных систем ИФП СО РАН, профессор Кафедры вычислитель- ных систем Сибирского Государственного Университета Телекоммуникаций и инфор- матики (Новосибирск, Россия). Основные направления научных исследований: Ин- форматика: распределенные вычислительные системы, живучесть вычислительных систем, суперкомпьютерные технологии, параллель- ное программирование; Математика: вероят- ность и статистика.

Алексей Пазников родился в Новосибирске, Россия, в 1988. Он получил степень кандида- та технических наук в Сибирском государст- венном университете телекомпаниий и ин- форматики (СибГУТИ) в 2013. С 2010 по 2017 работал доцентом на Кафедре вычисли- тельных систем СибГУТИ. С 2011 по 2018 - научный сотрудник Лаборатории вычисли- тельных систем Института физики полупро- водников им. А.В. Ржанова СО РАН. С 2016 по настоящее время является старшим науч- ным сотрудником Кафедры вычислительной техники Санкт-Петербуржского государст- венного электротехнического университета

«ЛЭТИ» им. В.И. Ульянова (Ленина)

151 978-1-5386-7054-5/18/$31.00 ©2018 IEEE

Моделирование конкурентного разделения каналов связи

при реализации операции All-To-All

Евгения Н. Перышкова

1, 2

, Михаил Г. Курносов

1, 2

1

СибГУТИ, Новосибирск, Россия

2

ИФП СО РАН, Новосибирск, Россия

Аннотация – В данной работе выполнена реализация тес- товых программ для оценки времени передачи сообщений при разделении каналов связи на уровне стандарта MPI.

Проведено исследование зависимости времени выполнения операции All-to-all от размера передаваемых сообщений и количества процессов, одновременно разделяющих канал связи. Разработана система прогнозирования времени вы- полнения операции All-to-all на заданной подсистеме эле- ментарных машин по результатам предварительной экспе- риментальной оценки падения производительности опера- ций MPI_Send/MPI_Recv при одновременном использова- нии канала связи множеством процессов. Полученные ре- зультаты будут использованы для разработки структурно- ориентированных алгоритмов формирования подсистем элементарных машин

.

Ключевые слова – Параллельное мультипрограммирование, организация функционирования, вычислительные систе- мы.

I.

В

ВЕДЕНИЕ

ажнейшим архитектурным свойством современных вычислительных систем (ВС) с распределенной па- мятью является глубокая иерархия средств доступа к оперативной памяти процессорных ядер.

Коммуникационные сети большинства высокопроиз- водительных систем имеют как минимум двухуровневую организацию. Первый уровень – коммуникационная сеть связи между элементарными машинами (ЭМ, вычисли- тельными узлами): Cray Gemini, IBM PERCS, Fujitsu Tofu, Gigabit Ethernet, InfiniBand [1-3]; второй уровень – оперативная память, разделяемая процессорными ядрами одной ЭМ.

Если принять во внимание использование коммуника- ционных сетей на базе составных коммутаторов (напри- мер, топология fat tree) [4], а также наличие внутрисис- темных шин для объединения процессоров в ЭМ с архи- тектурой NUMA, то количество уровней в иерархиче- ской структуре увеличивается. В частности, в системе Sunway TaihuLight пять уровней в коммуникационной среде: оперативная память ядра – Network on Chip – Sunway network – Supernode network – Switch network.

Основное назначение коммуникационной сети – реализация передачи сообщений между процессами параллельных программ. На протяжении последних 20 лет доминирующее положение среди средств разработки

параллельных программ занимает стандарт MPI и библиотеки, реализующие его (MPICH, MVAPICH, Open MPI).

Топологии коммуникационных сетей, используемых в ВС, по технико-экономическим причинам не являются полносвязными, поэтому при реализации параллельными программами глобальных схем информационным обменов возникает одновременное совместное использование некоторых каналов связи (network contention) [5]. Следствием этого является образование очередей передачи сообщений в библиотеках стандарта MPI, сетевых адаптерах, коммутаторах и падение производительности коммуникационной сети [6].

В данной работе выполнена реализация тестовых программ для оценки времени передачи сообщений при разделении каналов связи на уровне стандарта MPI.

Проведен экспериментальный анализ падения производительности коммуникационной сети при образовании очередей передачи сообщений для вычислительных систем с SMP/NUMA-архитектурой вычислительных узлов. Рассмотрено три уровня коммуникационной среды: оперативная память одной ЭМ, внутрисистемная шина, объединяющая процессоры в ЭМ с архитектурой NUMA, сеть связи между ЭМ (InfiniBand и Gigabit Ethernet).

В системах управления ресурсами ВС возникает задача формирования подсистемы из p процессорных ядер. В ВС на базе многопроцессорных узлов данная задача имеет множество решений. Например, симметричная подсистема ранга 8 может быть сформирована тремя способами: 1 вычислительный узел с 8 процессорными ядрами (1x8), два узла по 4 ядра (2x4) и четыре узла по 2 ядра (4x2). Время выполнения глобальных коммуникационных операций на этих подсистемах будет различным. Поэтому практический интерес представляет разработка алгоритмов формирования подсистем ЭМ, учитывающих структуру информационных обменов целевой программы.

Для операции All-to-all выполнено экспериментальное исследование влияние конфигурации подсистемы ЭМ на время выполнения операции. Выбор операции All-to-all обусловлен ее широким распространением в пакетах суперкомпьютерного моделирования. Разработана тестовая программа для оценки времени выполнения коллективной операции All-to-all при различных

В

XIV Международная научно-техническая конференция АПЭП – 2018

152

начальных распределениях процессов по процессорным ядрам ЭМ.

Проведено исследование зависимости времени выполнения операции All-to-all от размера передаваемых сообщений и количества процессов, одновременно разделяющих канал связи. Разработана система прогнозирования времени выполнения операции All-to- all на заданной подсистеме ЭМ по результатам предварительной экспериментальной оценки падения производительности операций MPI_Send/Recv при одновременном использовании канала связи множеством процессов. Полученные результаты будут использованы для разработки структурно-ориентированных алгоритмов формирования подсистем ЭМ.

II.

К

ОНКУРЕНТНОЕ

И

СПОЛЬЗОВАНИЕ

К

АНАЛОВ