В сети появились слухи о выхода DeepSeek R2

28.04.2025

~ 2 мин

1278

Простой

Новости

Введение

Несколько китайских инсайдеров слили характеристики готовящейся к новейшей модели DeepSeek R2, которая, предположительно, находится на финальных стадиях разработки. В сливах заявлено, что DeepSeek R2 полностью обучена на китайских ИИ-ускорителях Huawei Ascend, а стоимость использования модели будет на 97,3% дешевле, чем у проприетарной нейросети GPT-4.

Подробнее о сливах

Инсайдеры утверждают, что DeepSeek R2 будет основана на усовершенствованной архитектуре MoE (Mixture of Experts), а количество параметров языковой модели превысит 1,2 триллионов, из которых 78 миллиардов будут активными — объем, в 2 раза превышающий количество параметров DeepSeek R1. Для обучения нейросети, по всей видимости, использовалась база данных объемом 5,2 ПБ. Также инсайдеры заявили, что стоимость токенов DeepSeek R2 будет обходиться на 97,3% дешевле токенов GPT-4, что потенциально может сделать китайскую нейросеть самой экономичной и при этом эффективной LLM. В китайском бенчмарке ИИ-моделей DeepSeek R2 набрала 89,7% эффективности. В тесте CODO модели удалось набрать 92,4%. Однако, больше всего поражает оборудование, на которой, предположительно, обучалась DeepSeek R2 — инсайдеры заявляют, что для обучения использовались кластеры с загрузкой из 82% ИИ-ускорителей Huawei Ascend 910B, вычислительная мощность которых составила 512 PFLOPS в режиме FP16.

Инсайдер Deedy делится информацией о модели DeepSeek R2. Источник: X.

Сайт DeepSeek R2

Интересно, что 27 апреля 2025 года появился странный одностраничный сайт с доменом DeepSeek R2, содержание которого посвящено выходу передовой китайской нейросети. На сайте упоминаются передовые возможности DeepSeek R2 в области кодинга, математики, решении логических и научных задач. Кроме того, на сайте говорится, что DeepSeek R2 демонстрирует 40-кратный прирост производительности в сравнении с предыдущими нейросетями китайской компании, в тесте Codeforces модель набрала 2415 баллов, а в бенчмарке AIME 2024 и MATH-500 нейросеть якобы набрала 92,5% и 99,1% баллов соответственно. Также заявляется, что контекстное окно модели составляет 128 000 токенов, а выход нейросети намечен якобы на апрель 2025 года. Помимо этого, на сайте представлена таблица сравнения производительности DeepSeek R2 и DeepSeek R1 в 4 бенчмарках:

Сравнение производительности DeepSeek R2 и DeepSeek R1. Источник: DeepSeek R2.

При этом, все формулировки на сайте весьма расплывчаты и неясны, модели разных поколений сравниваются лишь в 4 бенчмарках, отсутствуют сравнения с LLM от конкурентов, а все ссылки ведут на социальные сети стартапа Ringer, специализирующегося на голосовых агентах на основе ИИ. По всей видимости, веб-ресурс является фейковым и призван привлечь внимание к начинающему стартапу, пользуясь ажиотажем вокруг выхода DeepSeek R2.

Выводы

Выход модели DeepSeek R2 ожидается всем ИИ-сообществом еще с момента выхода первой версии китайской нейросети. Большинство пользователей ожидают, что DeepSeek R2 снова вызовет революцию в секторе искусственного интеллекта, еще раз доказав, что Китай уверенно вытесняет США из ниши разработки передовых LLM. Пока что сложно сказать, правдивы ли высказывания инсайдеров, поскольку команда DeepSeek еще не делала никаких заявлений касательно слива характеристик, поэтому остается только ждать комментариев разработчиков или новых сливов готовящейся языковой модели. Ранее команда DeepSeek заявляла, что новейшая версия R2 может выйти уже в мае 2025 года.

Автор:

Serverflow

В сети появились слухи о выхода DeepSeek R2

Введение

Подробнее о сливах

Сайт DeepSeek R2

Выводы

Комментарии 0