Компания DeepSeek представила новое, масштабное обновление линейки своих топовых, открытых MoE-моделей с функцией размышления — DeepSeek-V3.2 и DeepSeek-V3.2-Speciale. Первая модель предназначена для повседневных операций и обеспечивает производительность на уровне GPT-5 Thinking при кратно меньшей стоимости использования, а вторая модель оптимизирована для выполнения особо сложных, интеллектуальных задач.
Подробнее о DeepSeek-V3.2 и DeepSeek V3.2-Speciale
Нейросеть DeepSeek-V3.2 позиционируется как универсальное решение для широкого спектра задач — от текстовой генерации до анализа данных. Разработчики заявляют, что DeepSeek-V3.2 обеспечивает качество ответов, сопоставимое с GPT-5 Thinking, однако расходует существенно меньше вычислительных ресурсов. При этом, стоимость DeepSeek-V3.2 в API в 20 раз ниже, чем ценники за токены у аналогичных решений. Версия DeepSeek-V3.2-Speciale предназначена для задач повышенной сложности и ориентирована на исследования, олимпиадную математику, программирование и глубокое логическое рассуждение. Модель также смогла завоевать золотые медали на AIME, HMMT, и показала высокий уровень производительности в тесте GPQA Diamond, который включает задачи по физике, химии и биологии. В отличие от базовой версии, Speciale ориентирована именно на высочайшую точность и способность сохранять контекст сложных цепочек рассуждений, что делает ее оптимальным решением для создания агентных систем и выполнения многошаговых вычислительных задач.
Сравнение DeepSeek-V3.2 и DeepSeek V3.2-Speciale с другими популярными ИИ-моделями. Источник: .
Разработчики выделяют три технических решения, благодаря которым новые модели достигли высокой производительности. Во-первых, двигателем прогресса стали механизмы DeepSeek Sparse Attention. Вместо того чтобы анализировать все 128-тысячное контекстное окно, модели выбирают лишь наиболее значимые 2048 токенов, используя быстрый индексатор. Благодаря этому квадратичный рост сложности вычислений, свойственный моделям трансформерам, практически сводится к минимуму, а также это снижает стоимость инференса на длинных сессиях, что подтверждено тестами на кластерах с ИИ-ускорителями H800.
Во-вторых, разработчики провели масштабное пост-обучение моделей DeepSeek-V3.2, стоимость которого заняла более 10% от расходов на всю предварительную подготовку моделей. Отдельные эксперты обучались математике, логике и программированию, после чего их знания дистиллировались в единую модель. Для стабилизации масштабирования использовались изменения в работе KL-штрафа и фиксированная маршрутизация экспертов, что позволило добиться высокой устойчивости моделей при больших нагрузках.
В третьих, датасет моделей состоит из более 1800 интерактивных сред — от систем поиска до репозиториев программного кода. В моделях реализована возможность сохранять цепочку рассуждений между вызовами инструментов, что раньше было невозможно. Контекст сбрасывается только при получении нового запроса пользователя, что упрощает работу агентов и снижает расходы на обработку длинных задач.
Обе модели имеют по 685 миллиардов параметров, веса уже доступны на , однако более компактных, квантированных версий пока нет — скорее всего, разработчики выпустят их в ближайшее время.
Выводы
DeepSeek V3.2 и V3.2-Speciale — это не просто очередной ИИ-релиз в сообществе open-source, а маркер того, что китайский ИИ-гигант снова в игре и активно совершенствует свой стек топовых нейросетей, возможно, готовя переход к новому семейству DeepSeek V4 или DeepSeek R2. Несмотря на некоторые ограничения, связанные с меньшим объемом энциклопедических знаний и высоких требований к системным ресурсам, обе модели демонстрируют значительный скачок в развитии открытого ИИ. Их доступность через API и клиентские приложения уже сейчас позволяет исследователям и разработчикам интегрировать технологии DeepSeek в свои проекты, формируя новую конкуренцию среди крупных моделей нового поколения, вроде GPT-5 и Gemini 3 Pro.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.