Что такое вычислительные кластеры и как они работают?

23.09.2024

~ 20 мин

1915

Сложный

Статьи

Содержание:

Введение
Основные компоненты вычислительного кластера

Узел доступа
Вычислительные узлы
Локальная сеть (LAN)
Система хранения данных

Какими бывают вычислительные кластеры?

Кластеры высокой доступности (HA-кластеры)
Кластеры с балансировкой нагрузки

Высокопроизводительные кластеры (HPC)

Infiniband
RoCE

Вывод

Введение

В вычислительных системах существует много способов организации эффективной обработки данных. Одной из наиболее популярных и мощных технологий является вычислительный кластер.

Он представляет собой группу соединенных компьютеров или серверов, которые работают вместе как единая система для решения сложных задач. В кластере каждая машина или узел выполняет определенные функции, которые мы подробно рассмотрим далее. За счет этого увеличивается производительность, повышается устойчивость к сбоям, оптимизируется распределение ресурсов.

В данной статье мы подробно рассмотрим компоненты вычислительного кластера, а также изучим различные его разновидности. Мы постараемся объяснить, какие задачи можно решить с помощью кластеров и по каким причинам они стали неотъемлемой частью современной IT-инфраструктуры.

Основные компоненты вычислительного кластера

Схематичное представление элементов вычислительного кластера

Вычислительный кластер состоит из нескольких компонентов, которые совместно обеспечивают его работоспособность. В том числе это узел доступа, вычислительные узлы, файловый сервер, LAN (локальные сети) и система хранения данных. Более подробно рассмотрим каждый из элементов.

Узел доступа

Узел доступа в вычислительном кластере – это компьютер или сервер, через который пользователи подключаются к кластеру, чтобы отправлять задания на выполнение, управлять задачами и следить за их состоянием. Он работает как точка входа в кластер, но сам не выполняет сложные вычисления.

Основная задача узла доступа – принимать команды от пользователей и перенаправлять их на рабочие узлы, которые уже занимаются реальной обработкой данных. Узел доступа помогает централизованно управлять ресурсами кластера и распределять задачи между вычислительными узлами.

Вычислительные узлы

Основная рабочая сила кластера. Вычислительные узлы принимают задачи, назначенные им узлом доступа, затем выполняют их. Каждый такой элемент представляет собой автономный сервер с собственными центральными процессорами, оперативной памятью и дисковыми накопителями.

Количество вычислительных узлов в кластере может варьироваться от нескольких единиц до тысяч в зависимости от поставленных задач, которые необходимо решать. Чем больше вычислительных узлов в кластере, тем выше его итоговая эффективность и производительность, но выше стоимость.

Пример вычислительного узла кластера - серверная платформа DELL PowerEdge R630. Благодаря компактному стоечному формату 1U, этот сервер позволяет легко масштабировать кластер, добавляя новые узлы в существующую сеть LAN.

Локальная сеть (LAN)

Физическая или виртуальная сеть, соединяющая все узлы кластера. Высокоскоростное и надежное сетевое подключение критично для работы вычислительного кластера, так как между узлами необходимо передавать большие объемы данных с минимально возможной задержкой.

Типы локальных сетей, используемых в кластерах, могут включать высокоскоростные решения, такие как InfiniBand или Gigabit Ethernet, в зависимости от требований к производительности.

Для обеспечения высокой эффективности работы кластеризируемых систем требуется уделить особое внимание выбору высокопроизводительного маршрутизатора. Arista 7050QX-32 может стать отличным решением поскольку имеет 32 порта QSFP+ с пропускной способностью 40 гигабит в секунду.

Система хранения данных

Система хранения данных (СХД) является одним из ключевых компонентов вычислительного кластера. Она отвечает за хранение, управление и обеспечение доступа к данным, которые используются как самим кластером, так и конечными пользователями.

В кластере система хранения данных выполняет роль центрального хранилища, к которому обращаются все узлы кластера для получения, обработки и сохранения информации. Здесь используются твердотельные накопители, RAID-массивы и прочие технологии, нужные для надежного хранения огромных объемов данных.

Адаптер Emulex Fibre Channel для подключения СХД к серверам

Для подключения СХД чаще всего прибегают к протоколу Fibre Channel. В виду его неоспоримой эффективности в рамках работы с массивами данных. FC демонстрирует лучшие показатели IOPS по сравнению с iSCSI, а также имеет расширенные технологии по типу NVMe-OF, которые необходимы для самых производительных хранилищ.

Какими бывают вычислительные кластеры?

В зависимости от выполняемых задач, характеристик, уровня надежности и назначения кластеры в наши дни принято делить на три категории. Более подробно рассмотрим каждую разновидность.

Кластеры высокой доступности (HA-кластеры)

Сервера HPE, Huawei и Supermicro для создания кластера

Кластеры высокой доступности, известные также как отказоустойчивые кластеры, используются для обеспечения непрерывного доступа к критическим приложениям и сервисам. Их основная задача – минимизировать время простоя приложений и обеспечить доступность даже при возникновении сбоев в аппаратуре либо в ПО. HA-кластеры используются в тех случаях, когда простои системы могут привести к существенным финансовым или репутационным потерям. Вот яркие примеры:

Серверы баз данных. HA-кластеры часто применяются для баз данных, чтобы обеспечить непрерывную работу даже в случае выхода из строя основного сервера. Это особенно актуально для финансовых организаций, онлайн-магазинов и крупных предприятий, где любая потеря данных или задержка в доступе к данным приводит к опасным последствиям.
Терминальные серверы. В первую очередь это корпоративные системы, где большое количество сотрудников или клиентов работает с удаленными приложениями и данными.
Почтовые серверы. Почтовые системы должны работать непрерывно, особенно для крупных компаний и организаций. Использование HA-кластеров позволяет гарантировать доступность почтовых серверов даже при технических проблемах с оборудованием.

HA-кластер становится таковым при достижении определенного уровня доступности приложений, который выражается через показатель время доступности. В индустрии критических систем этот показатель должен быть не менее пяти девяток, что означает 99.999% доступности приложений в течение года. Это соответствует примерно всего лишь пяти минутам недоступности системы за год.

Высокая надежность и отказоустойчивость HA-кластеров объясняется следующими принципами:

Избыточность компонентов. Каждый элемент кластера, будь то сервер, сеть или хранилище данных, дублируется. Это позволяет системе оставаться в рабочем состоянии даже при выходе из строя одного или нескольких элементов.
Обнаружение отказов и моментальное переключение. При возникновении сбоя на одном из узлов кластера специальное ПО обнаруживает этот сбой и переключается на резервный узел. Это происходит практически мгновенно, поэтому пользователи ничего не замечают.
Репликация данных и приложений. В случае сбоя основного узла резервный узел уже содержит актуальные данные и готов моментально заменить вышедший из строя узел без предварительной настройки. В том числе поэтому пользователи не замечают сбой.

Кроме того, используются системы мониторинга. Они постоянно отслеживают состояние узлов и компонентов кластера, выявляют возможные проблемы на ранних стадиях и минимизируют риски.

Кластеры с балансировкой нагрузки

Основной задачей кластеров с балансировкой нагрузки является эффективное распределение рабочей нагрузки между несколькими узлами или серверами. Они используются для поддержки высоконагруженных систем, таких как веб-сайты, базы данных, и другие критически важные приложения, к которым предъявляются требования высокой доступности и производительности.

Современные веб-сервисы могут одновременно обслуживать сотни тысяч или даже миллионы запросов от пользователей. Для того чтобы поддерживать стабильную работу таких сервисов, необходимо распределять нагрузку между множеством серверов. Кластеры с балансировкой нагрузки предотвращают перегрузку отдельных узлов и повышают общую эффективность системы.

Балансировщик нагрузки распределяет входящие запросы пользователей между всеми серверами в кластере, предотвращая перегрузку отдельных серверов. Это позволяет поддерживать высокую скорость отклика на запросы. В случае выхода из строя одного или даже сразу нескольких серверов балансировщик перенаправляет запросы на оставшиеся в системе узлы, и этим гарантирует непрерывность работы и минимизацию простоев. Пользователи не заметят возникшего сбоя.

Высокопроизводительные кластеры (HPC)

Высокопроизводительные кластеры представляют собой объединение множества компьютеров или серверов, работающих совместно для решения сложных задач, которые требуют значительных вычислительных ресурсов. HPC-кластеры используются в науке, инженерии и бизнесе для выполнения вычислений, реализовать которые не под силу простым персональным компьютерам.

Например, современные десктопные процессоры выполняют около 4-5 миллиардов вычислений в секунду. Невероятная производительность по меркам одного человека, но мизерная, если сравнить с вычислительной мощностью HPC-кластеров. Последние выполняют триллионы операций за 1 секунду. Ярким примером этой системы является суперкомпьютер из тысяч вычислительных узлов.

HPC-кластеры позволяют моделировать сложные процессы, анализировать большие данные и выполнять интенсивные вычисления, которые важны для таких областей, как климатология, биоинформатика, физика, инженерное проектирование и обучение искусственного интеллекта.

Для формирования высокопроизводительного кластера несколько мощных компьютеров следует объединить с помощью скоростной проводной сети с широкой пропускной способностью. При этом важно обеспечить синхронность выполнения вычислений, чтобы добиться их высокой скорости. В такой системе производительность ограничивается возможностями самого медленного элемента.

Отдельно стоит поговорить про технологии Infiniband и RoCE. Они используются для высокоскоростного обмена данными в вычислительных кластерах, для минимизации задержек и повышения пропускной способности при передаче данных между узлами кластера.

Infiniband

Специализированная сетевая архитектура для сверхбыстрого обмена данными. Она может достигать пропускной способности до 800 Гбит/с. Infiniband использует технологию RDMA (Remote Direct Memory Access), которая позволяет одному узлу напрямую обращаться к памяти другого узла, минуя центральный процессор и ОС. Это значительно сокращает задержки при передаче данных.

Сегодня компания Mellanox (NVIDIA) является лидером в области InfiniBand и производит одни из самых высокопроизводительных адаптеров на рынке. В зависимости от ваших потребностей, вы можете выбрать сетевые карты (NIC) с подходящей пропускной способностью, чтобы избежать лишних затрат.

RoCE

Технология, которая переносит функционал RDMA на стандартную Ethernet-сеть. Это позволяет осуществлять те же быстрые передачи данных с низкой задержкой, но без необходимости установки специализированного оборудования, как в случае с Infiniband. RoCE работает поверх Ethernet, а Ethernet сети уже широко распространены в дата-центрах, что делает его более удобным с точки зрения интеграции с существующей инфраструктурой.

Сетевые адаптеры Intel старших серий поддерживают RoCE, что позволяет избежать покупки отдельных коммутаторов и специализированных сетевых карт (NIC). Вместо этого можно модернизировать существующую Ethernet инфраструктуру для работы с RDMA over Converged Ethernet.

Вывод

На 2024 год вычислительные кластеры стали неотъемлемой частью развитой IT-инфраструктуры. Они позволяют любому желающему развертывать отказоустойчивые и высокопроизводительные системы как в собственной серверной стойке, так и на базе целого центра обработки данных (ЦОД). Кластеры легко масштабируются и имеют понятную топологию, что делает их идеальными для внедрения в различные сценарии, связанные с серверным оборудованием. Эти преимущества обеспечивают высокую гибкость и надежность, необходимые для современных IT-решений.

Если у вас остались вопросы по выбору оборудования для создания кластера, вы можете обратиться в онлайн-чат на нашем сайте или написать на электронную почту, указанную в шапке сайта. Специалисты ServerFlow всегда на связи и готовы помочь вам решить самые сложные задачи, связанные с серверами и сетевым оборудованием.

Автор:

Serverflow

Что такое вычислительные кластеры и как они работают?

Введение

Основные компоненты вычислительного кластера

Узел доступа

Вычислительные узлы

Локальная сеть (LAN)

Система хранения данных

Какими бывают вычислительные кластеры?

Кластеры высокой доступности (HA-кластеры)

Кластеры с балансировкой нагрузки

Высокопроизводительные кластеры (HPC)

Infiniband

RoCE

Вывод

Комментарии 0