Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale: ИИ-гигант из КНР снова в игре

01.12.2025

~ 2 мин

961

Простой

Новости

Введение

Компания DeepSeek представила новое, масштабное обновление линейки своих топовых, открытых MoE-моделей с функцией размышления — DeepSeek-V3.2 и DeepSeek-V3.2-Speciale. Первая модель предназначена для повседневных операций и обеспечивает производительность на уровне GPT-5 Thinking при кратно меньшей стоимости использования, а вторая модель оптимизирована для выполнения особо сложных, интеллектуальных задач.

Подробнее о DeepSeek-V3.2 и DeepSeek V3.2-Speciale

Нейросеть DeepSeek-V3.2 позиционируется как универсальное решение для широкого спектра задач — от текстовой генерации до анализа данных. Разработчики заявляют, что DeepSeek-V3.2 обеспечивает качество ответов, сопоставимое с GPT-5 Thinking, однако расходует существенно меньше вычислительных ресурсов. При этом, стоимость DeepSeek-V3.2 в API в 20 раз ниже, чем ценники за токены у аналогичных решений. Версия DeepSeek-V3.2-Speciale предназначена для задач повышенной сложности и ориентирована на исследования, олимпиадную математику, программирование и глубокое логическое рассуждение. Модель также смогла завоевать золотые медали на AIME, HMMT, и показала высокий уровень производительности в тесте GPQA Diamond, который включает задачи по физике, химии и биологии. В отличие от базовой версии, Speciale ориентирована именно на высочайшую точность и способность сохранять контекст сложных цепочек рассуждений, что делает ее оптимальным решением для создания агентных систем и выполнения многошаговых вычислительных задач.

Сравнение DeepSeek-V3.2 и DeepSeek V3.2-Speciale с другими моделями

Сравнение DeepSeek-V3.2 и DeepSeek V3.2-Speciale с другими популярными ИИ-моделями. Источник: Hugging Face.

Разработчики выделяют три технических решения, благодаря которым новые модели достигли высокой производительности. Во-первых, двигателем прогресса стали механизмы DeepSeek Sparse Attention. Вместо того чтобы анализировать все 128-тысячное контекстное окно, модели выбирают лишь наиболее значимые 2048 токенов, используя быстрый индексатор. Благодаря этому квадратичный рост сложности вычислений, свойственный моделям трансформерам, практически сводится к минимуму, а также это снижает стоимость инференса на длинных сессиях, что подтверждено тестами на кластерах с ИИ-ускорителями H800.

Во-вторых, разработчики провели масштабное пост-обучение моделей DeepSeek-V3.2, стоимость которого заняла более 10% от расходов на всю предварительную подготовку моделей. Отдельные эксперты обучались математике, логике и программированию, после чего их знания дистиллировались в единую модель. Для стабилизации масштабирования использовались изменения в работе KL-штрафа и фиксированная маршрутизация экспертов, что позволило добиться высокой устойчивости моделей при больших нагрузках.

В третьих, датасет моделей состоит из более 1800 интерактивных сред — от систем поиска до репозиториев программного кода. В моделях реализована возможность сохранять цепочку рассуждений между вызовами инструментов, что раньше было невозможно. Контекст сбрасывается только при получении нового запроса пользователя, что упрощает работу агентов и снижает расходы на обработку длинных задач.

Обе модели имеют по 685 миллиардов параметров, веса уже доступны на Hugging Face, однако более компактных, квантированных версий пока нет — скорее всего, разработчики выпустят их в ближайшее время.

Выводы

DeepSeek V3.2 и V3.2-Speciale — это не просто очередной ИИ-релиз в сообществе open-source, а маркер того, что китайский ИИ-гигант снова в игре и активно совершенствует свой стек топовых нейросетей, возможно, готовя переход к новому семейству DeepSeek V4 или DeepSeek R2. Несмотря на некоторые ограничения, связанные с меньшим объемом энциклопедических знаний и высоких требований к системным ресурсам, обе модели демонстрируют значительный скачок в развитии открытого ИИ. Их доступность через API и клиентские приложения уже сейчас позволяет исследователям и разработчикам интегрировать технологии DeepSeek в свои проекты, формируя новую конкуренцию среди крупных моделей нового поколения, вроде GPT-5 и Gemini 3 Pro.

Автор:

Serverflow