Компания DeepSeek вновь решила перевернуть ИИ-индустрию с ног на голову, но теперь не в оптимизации бюджета разработки моделей, а в эффективности выполнения математических операций. Локомотивом этого прорыва стала инновационная ИИ-модель DeepSeekMath-V2 объемом 685 миллиардов параметров, которая сменила парадигму обучения LLM для математики, концентрируясь не на точности ответа и достижения большего балла в бенчмарках, а на интеллектуальности рассуждений и самокорректировке ошибок.
Подробнее о DeepSeekMath-V2
При создании DeepSeekMath-V2, взяв в основу более ранее представленную ИИ-модель DeepSeekV3.2-Exp-Base, китайские разработчики представили концепцию самопроверяемых математических рассуждений. Основная идея заключается в обучении двух взаимосвязанных компонентов, представляющих из себя отдельные нейросети: верификатора и генератора доказательств. Верификатор оценивает полноту и точность рассуждений, а генератор использует его как модель вознаграждения, что мотивирует его выявлять и исправлять ошибки в собственных доказательствах до их завершения. Чтобы генератор продолжал улучшаться, верификатор масштабируется для обработки более сложных доказательств, создавая новые обучающие данные и повышая производительность системы. Такой подход позволяет постепенно уменьшать разрыв между генерацией и проверкой ответов, обеспечивая устойчивый рост точности и сложности математических рассуждений модели.
Результаты тестов DeepSeekMath-V2 в тестах IMO 2025, CMO 2024 и Putnam 2024. Источник: .
DeepSeekMath-V2 была протестирована на крупных международных математических конкурсах. Модель продемонстрировала высокий уровень точности, завоевав золото на IMO 2025 и CMO 2024, а также почти высший балл 118/120 на Putnam 2024. Эти достижения подтверждают, что подход самопроверяемых рассуждений способен обеспечить глубину и точность ответов, недостижимую традиционными методами, ориентированными исключительно на финальный ответ. В сравнении с другими ИИ-моделями, DeepSeekMath-V2 также держит первенство, превосходя таких серьезных конкурентов, как Claude Sonnet 4, Gemini 2.5 Pro, GPT-5, Grok 4 и Qwen3-235b.
Производительность DeepSeekMath-V2 в сравнении с другими ИИ-моделями. Источник: .
Выводы
DeepSeekMath-V2 демонстрирует, что самопроверяемые математические рассуждения — это новое, перспективное направление в развитии искусственного интеллекта. Использование верификатора в качестве внутреннего механизма контроля качества рассуждений позволяет создавать более надежные и масштабируемые модели. Эти результаты открывают возможности для разработки ИИ, способного решать сложные математические задачи, доказывать теоремы и закладывают основу для будущих исследований в этой области.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.