Top.Mail.Ru
Релиз DeepSeek-V3.2-Exp: очередная ИИ-революция от китайского стартапа | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Релиз DeepSeek-V3.2-Exp: очередная ИИ-революция от китайского стартапа

~ 2 мин
611
Простой
Новости
Релиз DeepSeek-V3.2-Exp: очередная ИИ-революция от китайского стартапа

Введение

Спустя ровно одну неделю после релиза DeepSeek V3.1 Terminus, широко известный китайский ИИ-гигант представил еще одну версию своей передовой модели искусственного интеллекта — DeepSeek-V3.2-Exp. Новая экспериментальная LLM знаменует переход к новой, инновационной архитектуры DSA, благодаря модель поддерживает длинные контекстные окна, при этом стоимость ее использования кардинально снижается.

Подробнее о DeepSeek-V3.2-Exp

Главным технологическим прорывом в модели DeepSeek V3.2-Exp стала интеграция передовой технологии DeepSeek Sparse Attention (DSA), которая является первой в LLM-отрасли реализацией так называемого мелкозернистого разреженного внимания. Эта архитектура обеспечивает значительный прирост в эффективности обучения и инференса языковых моделей с поддержкой длинных контекстных последовательностей в 128 тысяч токенов, при это качество выходных токенов LLM сохраняется на высочайшем уровне, а стоимость генерации токена снижается на колоссальные 83% — другими словами, DSA способна вывести современные языковые модели на совершенно новый уровень эффективности. В основе архитектуры DSA лежит два компонента Lightning Indexer и Sparse Multi-Latent Attention (MLA). Lightning Indexer хранит кэш ключей по 128 на токен, благодаря чему модель может эффективно прогнозировать следующий пользовательский запрос, тем самым экономя на вычислениях, а MLA, будучи передовой архитектурой механизма внимания, многократно улучшает работу с длинным контекстом. При всех этих инновационных модификациях, количество параметров DeepSeek-V3.2-Exp осталось на уровне в 685 миллиардов параметров, а благодаря использованию MoE (256 экспертов), в момент генерации ответов активируются лишь 37 миллиардов параметров. Все это позволяет DeepSeek-V3.2-Exp выполнять сложнейшие задачи в области анализа данных, рассуждения, генерации текста и вычислений, при этом снижая требования к локальному развертыванию и оптимизируя стоимость генерации токенов.

Увеличение стоимости токенов при масштабировании контекста в DeepSeek-V3.2-Exp и DeepSeek-V3.1 Terminus
Сравнение увеличения стоимости генерации токенов моделей DeepSeek-V3.2-Exp и DeepSeek-V3.1 Terminus при масштабировании контекстного окна. Источник: Hugging Face.

Помимо вышеперечисленного, DeepSeek также внедрила в свою экспериментальную модель множество дополнительных надстроек для повышения производительности и эффективности. Например, система интеллектуальной маршрутизации экспертов предотвращает дисбаланс нагрузки, равномерно распределяя вычисления между доступными вычислительными модулями. Также модель DeepSeek V3.2-Exp реализует принцип работы без потери токенов благодаря эффективной балансировке нагрузки на всех этапах — как в процессе обучения, так и при выполнении инференса.

В сравнении с DeepSeek V3.1, экспериментальная версия DeepSeek V3.2-Exp демонстрирует огромный прогресс: ускорение обработки длинных контекстов в 2-3 раза при одновременном снижении потребления памяти на 40% в сценариях работы с контекстами свыше 64 тысяч токенов. В работе с контекстом 32 тысячи токенов скорость генерации увеличивается на 45% При этом качество генерации текста сохраняется на идентичном уровне, а стабильность работы при масштабировании нагрузок существенно возрастает. DeepSeek заявляет, что V3.2-Exp в задачах обработки длинного контекста демонстрирует качество, сопоставимое с GPT-4, при существенно меньших вычислительных затратах. Модель также превосходит Claude 3 в скорости обработки документов объемом свыше 50 тысяч токенов и показывает лучшую масштабируемость в сравнении с Llama* 3.1 405B.

Сравнение производительности DeepSeek-V3.2-Exp и DeepSeek-V3.1 Terminus
Сравнение производительности DeepSeek-V3.2-Exp и DeepSeek-V3.1 Terminus в различных бенчмарках. Источник: Hugging Face.

В довесок к архитектурным улучшениям, DeepSeek V3.2-Exp получила расширенный набор функций, включая механизм вызова инструментов для интеграции с внешними API-интерфейсами и генерацию структурированных данных в формате JSON. Реализована поддержка технологии Fill-in-the-Middle (FIM) для задач автодополнения кода, многошаговых диалогов с сохранением контекста и обработки документов объемом до 100 тысяч слов.

DeepSeek также поделилась, что передовая нейросеть V3.2-Exp демонстрирует высочайшую эффективность при анализе научных данных и технической документации, суммаризации крупных текстовых массивов, работе с полными кодовыми базами и ведении многоходовых диалогов с сохранением полного контекста взаимодействия. Благодаря использованию архитектуры DSA, модель подходит для развертывания в системах корпоративного уровня, включая системы обработки клиентских запросов, автоматизации документооборота, интеллектуальных ассистентов с расширенным контекстом и аналитических платформ для работы с большими текстами.

Важно понимать, что DeepSeek V3.2-Exp является лишь экспериментальной версией, вследствие чего она содержит ряд не оптимизированных компонентов, вследствие чего для ее развертывания пока что требуется не менее 8 GPU A100 с 80 ГБ в каждой, а в узкоспециализированных сценариях нейросеть может демонстрировать не самые лучше результаты. Для оптимизации работы нейросети разработчики рекомендуют применять квантизацию в режиме FP8_E4M3, а также батчинг и настройку параметров генерации. Тем не менее, работа над DeepSeek V3.2-Exp активно продолжается и уже в ближайшее время контекстное окно модели будет увеличено до 256 тысяч токенов. Веса модели DeepSeek V3.2-Exp уже доступны для скачивания через Hugging Face и GitHub, поддерживается инференс через vLLM, а также модель можно запустить на NPU ускорителях Huawei.

Выводы

Можно с уверенностью заявлять, что DeepSeek V3.2-Exp — это настоящая революция в мире больших языковых моделей, ключевым локомотивом которой является инновационная архитектура DSA. С учетом того, что эта модель все еще разрабатывается и в будущем ее возможности будут кратно расширены, на ее полноценном релизе ажиотаж ИИ-сообщества будет схож с резонансом в момент выхода DeepSeek R1.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)