NVMe over Fabrics: ускорение доступа к данным в эпоху высокопроизводительных ИИ‑нагрузок

09.07.2025

~ 20 мин

1755

Средний

Статьи

Введение

Мы находимся в начале эпохи развития искусственного интеллекта и высокопроизводительных вычислений, и уже сейчас эти сферы предъявляют высочайшие требования к системам хранения данных. Традиционные сетевые протоколы, такие как iSCSI, NFS и Fibre Channel Protocol (FCP), оказались неспособны эффективно обрабатывать миллионы IOPS, обеспечивать микросекундные задержки и поддерживать параллельный доступ к данным. Отличным решением могли бы стать NVMe-накопители, превосходящие стандартные SATA/SAS в сотни раз по производительности, однако такие системы сталкиваются с физическими ограничениями масштабируемости только в рамках одной системы. Единственный выход из этой ситуации — расширить преимущества локального NVMe на сетевую среду с помощью технологии NVMe over Fabrics (NVMe-oF), что позволит эффективно масштабировать NVMe вплоть до уровня кластеров и дата-центров. Сегодня мы расскажем вам, что такое NVMe-oF, как работает эта технология и где она применяется.

Что такое NVMe over Fabrics?

Спецификация NVMe over Fabrics — это не новый сетевой протокол в привычном понимании, а большое расширение для уже существующего стандарта NVMe, изначально разработанного для шины PCIe. То есть, около 90% протокола NVMe over Fabrics соответствует локальному протоколу NVMe, поэтому ключевые изменения не касаются пространства имен, команд ввода / вывода, административных команд, регистров, свойств, состояний питания, асинхронных событий и других основополагающих элементов NVMe. Суть технологии NVMe over Fabrics заключается в том, что хост-инициатор (сервер) получает возможность напрямую взаимодействовать с NVMe-контроллером хранилища через высокоскоростную сеть, используя модель очередей команд NVMe. То есть, NVMe over Fabrics добавляет внешний интерфейс в системы хранения, что увеличивает дистанцию подключения системы к данным и позволяет масштабировать подсистему NVMe.

Уровни протокола NVMe over Fabrics. Источник: Источник: NVME SMB.

Ключевое отличие NVMe over Fabrics от локального NVMe состоит в способе передачи: команды NVMe и данные инкапсулируются в пакеты сетевого протокола (Ethernet, InfiniBand, FC) вместо передачи по внутренней шине PCIe. Это обеспечивает NVMe-oF особым преимуществом — значительным сокращением накладных расходов по сравнению с традиционными сетевыми протоколами хранения, которые базируются на SCSI. Это достигается за счет устранения слоев трансляции команд (SCSI в NVMe и обратно), оптимизированной обработки глубоких очередей, напрямую соответствующих архитектуре современных процессоров и СХД. Все это наделяет NVMe-oF высокой производительностью и низкими задержками локального NVMe. При этом NVMe-oF обеспечивает широкие возможности масштабирования, гибкое распределение ресурсов, возможность удобного управления СХД.

Визуализация работы технологии NVMe-oF. Источник: Techtarget.

Варианты транспорта: RDMA, TCP и Fibre Channel

Гибкость NVMe over Fabrics заключается в его способности работать поверх различных сетевых технологий, выступающих в роли транспорта. Каждый из этих транспортов предлагает уникальный баланс производительности, задержки, стоимости и сложности развертывания, что позволяет выбрать оптимальное решение для конкретной инфраструктуры и рабочих нагрузок.

NVMe over RDMA (NVMe/RDMA). Этот транспорт использует технологии Remote Direct Memory Access (RoCEv2, iWARP, UltraEthetnet или InfiniBand). Ключевое преимущество NVMe over RDMA — прямой доступ к памяти целевого устройства без участия его CPU, что обеспечивает минимальные задержки и снижение нагрузки на процессор. Однако вариации NVMe-oF InfiniBand и NVMe-oF RoCEv2 требует интеграции дорогих специализированных адаптеров и, особенно для RoCEv2, сложной настройки сети (PFC, ECN для Lossless Ethernet). Такой сценарий будет идеален для инфраструктур HPC и ИИ, где требуются минимальные задержки в передаче данных.
NVMe over TCP (NVMe/TCP). Наиболее универсальный и простой в развертывании вариант, использующий стандартный стек TCP/IP поверх обычного Ethernet. Работает на любых сетевых адаптерах и использует существующую IP-инфраструктуру, благодаря чему инфраструктура NVMe over TCP легко масштабируется и обладает наименьшей стоимостью владения. Конечно, задержка NVMe over TCP выше, чем у RDMA-решений, а нагрузка на CPU хоста выше из-за обработки TCP внутри процессора. Тем не менее, NVMe over TCP отлично подойдет для виртуализации (например, Proxmox), универсальных дата-центров и сред, где важна простота и экономичность, а абсолютный минимум задержки не обязателен.
NVMe over Fibre Channel (NVMe/FC). Представляет собой эволюцию традиционных SAN на базе Fibre Channel, заменяя устаревший протокол FCP/SCSI на передачу фреймов NVMe. Сохраняет все преимущества FC: гарантированную доставку пакетов, изоляцию трафика, высокую надежность. У данного сценария задержка ниже, чем у TCP, при этом NVMe over Fibre Channel позволяет удобно модернизировать существующие FC-SAN без замены всей инфраструктуры. Основной минус вариации NVMe over Fibre Channel — привязка к более дорогой и менее распространенной экосистеме FC. NVMe over Fibre Channel подойдет для улучшения высокопроизводительных SAN в средах с устоявшейся FC-инфраструктурой, где требуется высокая производительность и надежность.

Транспортные протоколы NVMe over Fabrics

Передача данных по NVMe over Fabrics с различными транспортными протоколами. Источник: NVME SMB.

Применение в ИИ и дата-центрах

Преимущества технологии NVMe-oF действительно впечатляют, поэтому неудивительно, что NVMe over Fabrics применяется в таких ресурсоемких системах, как ИИ-ориентированные инфраструктуры и передовые дата-центры. К примеру, в кластерах для инференса и обучения ИИ, технология NVMe-oF обеспечивает мгновенный вывод данных больших языковых моделей, причем, позволяя выполнять эти операции для тысяч параллельных запросов с минимальной задержкой. В области обучения нейросетей технологии NVMe-oF тоже нашли свое применение — протокол ускоряет загрузку огромных тренировочных датасетов из централизованного хранилища в GPU-кластеры, позволяя многим вычислительным узлам параллельно и эффективно обращаться к общим данным без создания узких мест.

Программный стек NVMe-oF с равными транспортными протоколами

Программный стек NVMe-oF меняется в зависимости от выбранного транспортного протокола. Источник: NVME SMB.

Но использование NVMe-oF не ограничено только сферой искусственного интеллекта. Высокопроизводительные базы данных (OLTP, OLAP) при интеграции NVMe-oF выигрывают от уменьшения задержки доступа к данным (особенно критично для индексов и журналов транзакций) и увеличения IOPS, при этом хранилище может масштабироваться независимо от объема вычислительных ресурсов.

Технология также является незаменимым решением для для современных программно-определяемых хранилищ (SDS). В Ceph реализация NVMe-oF Target (например, через SPDK) позволяет клиентам (хостам OSD или приложениям) напрямую обращаться к блочным устройствам с производительностью NVMe, минуя стандартный протокол RBD и снижая нагрузку на CPU. VMware vSAN использует NVMe-oF TCP в качестве транспорта, существенно повышая производительность гиперконвергентных кластеров по сравнению со стандартным TCP/IP. Аналогично, Nutanix и другие HCI-платформы применяют NVMe-oF (чаще в связке с TCP) для высокоскоростной связи между вычислительными узлами и узлами хранения.

NVMe-oF также лежит в основе создания высокопроизводительных разделяемых пулов NVMe-накопителей, которые могут динамически выделяться различным приложениям и серверам, обеспечивая гибкость и эффективное использование системных ресурсов. Для микросервисов и контейнерных сред NVMe-oF предоставляет быстрый и надежный доступ к данным приложений, развернутых на разных физических хостах.

Примеры решений и оборудования

Экосистема решений с поддержкой технологии NVMe-oF постоянно развивается и крупнейшие компании постепенно внедряют совместимые решения в свой ассортимент оборудования и ПО. Рассмотрим несколько примеров устройств и программного обеспечения, которые поддерживают NVMe over Fabrics:

NVIDIA BlueField DPU: Специализированные SmartNIC (например, BlueField-3) обеспечивают полный офлоад обработки NVMe-oF трафика (RDMA, TCP) на уровне сетевой карты, разгружая CPU хостов на 70–90%. Также они поддерживают технологию GPU Direct Storage, что критично для ИИ-кластеров, где требуется прямая передача данных между GPU и хранилищем с задержками до 10 мкс. Интегрируются с VMware Cloud Foundation и Kubernetes, обеспечивая безопасность и ускорение виртуализированных сред.
AMD Pensando DPU: Особые SmartNIC для разгрузки процессора от обработки NVMe-oF трафика, обеспечивающие микросекундные задержки для ИИ-инфраструктур.
Huawei OceanStor Dorado. Системы хранения данных использующие NVMe-oF RoCEv2 для достижения минимальных задержек и высочайшей производительности.
HPE Alletra. Специализированные СХД с поддержкой NVMe-oF от компании HPE для интеграции NVMe-дисков в ИИ-ориентированные инфраструктуры.
Infortrend СХД. Популярная компания в мире систем хранения данных, интегрирующая NVMe-of с 200 Гбит/с RDMA для размещения U2.2-SSD накопителей на базе NVMe.
Ceph с NVMe/TCP: Реализует шлюзы NVMe-oF, преобразующие RBD-образы в устройства NVMe/TCP. Обеспечивает высочайшую отказоустойчивость на группу из 8 узлов через активные/пассивные пространства имен до 1024 на кластер.
Nutanix HCI: Интегрирует NVMe/TCP для связи между вычислительными узлами и пулами хранения, сокращая задержки по сравнению с iSCSI. В комбинации с BlueField DPU ускоряет обработку ИИ-нагрузок.

Помните, что для развертывания NVMe-oF серверы должны поддерживать сетевые транспорты (RDMA-адаптеры) или стандартные NIC для NVMe/TCP. Кроме того, сервер также должен иметь настроенный стек ПО: драйверы NVMe, утилиты вроде nvme-cli (для Linux) и модули ядра ОС (например, nvme-tcp).

Архитектура системы с использованием технологии NVMe-oF. Источник: Slideshare.

Выводы

NVMe over Fabrics — это настоящая революция в сфере сетевых хранилищ, которая удовлетворяет потребности таких критически важных сфер, как HPC-вычисления, разработка искусственного интеллекта и виртуализация. Преодолевая ограничения как локальных NVMe, так и традиционных сетевых протоколов, NVMe-oF предлагает комплексное решение, обеспечивающее высокую производительность, минимальные задержки и широкие возможности масштабирования. В эпоху, когда каждая миллисекунда важна, NVMe-oF становится новым стандартом для самых требовательных коммерческих инфраструктур. Именно благодаря технологии NVMe over Fabrics, мы можем вынести NVMe накопители за рамки одной вычислительной системы, сепарируя вычислительные стойки от стоек СХД, что ранее было возможно только при использовании медленных SAS/SATA-накопителей.

Автор:

Serverflow