Нейросеть QwQ:32b — первая рассуждающая модель от Alibaba

Автор: ServerFlow

Компания Alibaba выпустила свою первую рассуждающую модель QwQ:32b.

Содержание: Введение Производительность QwQ:32b Выводы Введение 6 марта 2025 года компания Alibaba, ответственная за создание передового искусственного интеллекта Qwen 2.5 Max, выпустила новую ИИ-модель QwQ, которая стала первой рассудающей моделью в серии нейросетей Qwen. QwQ имеет 32 миллиарда параметров, контекстное окно в 131 000 токенов и доступна свободном доступе. Благодаря функции рассуждения, QwQ способна более эффективно решать логические и математические задачи. Производительность QwQ:32b Чтобы увеличить производительность модели QwQ:32b, разработчики использовали метод “обучения с подкреплением”, при котором за более точные и релевантные ответы ИИ получает вознаграждение, а за менее релевантные ответы — штрафы. Благодаря этому QwQ превосходит рассуждающую ИИ OpenAI GPT-o1 mini в математических задачах и научных вычислениях, а также она аналогична по производительности с моделью DeepSeek R1 в тех же операциях. Кроме того, в бенчмарках LiveBench и BFCL модель QwQ:32b даже превосходит своих конкурентов. Производительность QwQ:32b в разных задачах по сравнению с моделями конкурентов. Источник: QwenAI. Разработчики QwQ:32b сделали упор на математические вычисления, кодинг, четкое следование заданным инструкциям и глубокое рассуждение, что также является следствием использование метода обучения с подкреплением. Еще одно преимущество QwQ:32b по сравнению с конкурентами — при обучении модель не потребляет большого объема видеопамяти. Например, если для обучения DeepSeek R1:671b требуется 1500 ГБ VRAM, то для QwQ:32b необходимо лишь 24 ГБ VRAM для достижения аналогичной производительности. На самом деле, первая версия QwQ была представлена еще в ноябре 2024 года. Она также имела 32 миллиарда параметров, но длина контекстного окна составляла всего 32 000 токенов, а в задачах программирования ИИ показывал себя не лучшим образом. Кроме того, первая версия QwQ нередко путала языки (чаще она переключалась на китайский язык) и периодически происходила ошибка циклического рассуждения, при которой ИИ бесконечно рассуждал над ответом. Выводы Выпуск рассуждающей модели от Alibaba был лишь вопросом времени, так как тренд на рассуждающий искусственный интеллект до сих пор актуален и разработчики нейросетей повсеместно добавляют функцию “thinking” в свои проекты. Также модель QwQ смогла продемонстрировать, что передовой метод обучения с подкреплением крайне эффективно показывает себя для обеспечения высочайшей производительности ИИ при меньшем потреблении VRAM. Не исключено, что и другие разработчики LLM станут применять этот метод при создании своих передовых моделей искусственного интеллекта.

Нейросеть QwQ:32b — первая рассуждающая модель от Alibaba

10.03.2025

~ 2 мин

767

Простой

Новости

Содержание:

Введение
Производительность QwQ:32b
Выводы

Введение

6 марта 2025 года компания Alibaba, ответственная за создание передового искусственного интеллекта Qwen 2.5 Max, выпустила новую ИИ-модель QwQ, которая стала первой рассудающей моделью в серии нейросетей Qwen. QwQ имеет 32 миллиарда параметров, контекстное окно в 131 000 токенов и доступна свободном доступе. Благодаря функции рассуждения, QwQ способна более эффективно решать логические и математические задачи.

Производительность QwQ:32b

Чтобы увеличить производительность модели QwQ:32b, разработчики использовали метод “обучения с подкреплением”, при котором за более точные и релевантные ответы ИИ получает вознаграждение, а за менее релевантные ответы — штрафы. Благодаря этому QwQ превосходит рассуждающую ИИ OpenAI GPT-o1 mini в математических задачах и научных вычислениях, а также она аналогична по производительности с моделью DeepSeek R1 в тех же операциях. Кроме того, в бенчмарках LiveBench и BFCL модель QwQ:32b даже превосходит своих конкурентов.

Производительность QwQ:32b в разных задачах по сравнению с моделями конкурентов. Источник: QwenAI.

Разработчики QwQ:32b сделали упор на математические вычисления, кодинг, четкое следование заданным инструкциям и глубокое рассуждение, что также является следствием использование метода обучения с подкреплением. Еще одно преимущество QwQ:32b по сравнению с конкурентами — при обучении модель не потребляет большого объема видеопамяти. Например, если для обучения DeepSeek R1:671b требуется 1500 ГБ VRAM, то для QwQ:32b необходимо лишь 24 ГБ VRAM для достижения аналогичной производительности.

На самом деле, первая версия QwQ была представлена еще в ноябре 2024 года. Она также имела 32 миллиарда параметров, но длина контекстного окна составляла всего 32 000 токенов, а в задачах программирования ИИ показывал себя не лучшим образом. Кроме того, первая версия QwQ нередко путала языки (чаще она переключалась на китайский язык) и периодически происходила ошибка циклического рассуждения, при которой ИИ бесконечно рассуждал над ответом.

Выводы

Выпуск рассуждающей модели от Alibaba был лишь вопросом времени, так как тренд на рассуждающий искусственный интеллект до сих пор актуален и разработчики нейросетей повсеместно добавляют функцию “thinking” в свои проекты. Также модель QwQ смогла продемонстрировать, что передовой метод обучения с подкреплением крайне эффективно показывает себя для обеспечения высочайшей производительности ИИ при меньшем потреблении VRAM. Не исключено, что и другие разработчики LLM станут применять этот метод при создании своих передовых моделей искусственного интеллекта.

Автор:

Serverflow

Нейросеть QwQ:32b — первая рассуждающая модель от Alibaba

Введение

Производительность QwQ:32b

Выводы

Комментарии 0