Тестируем QwQ: 32b — оцениваем эффективность первой рассуждающей LLM от Alibaba

25.03.2025

~ 15 мин

3822

Средний

Статьи

Введение

Мы уже писали о недавно вышедшей модели QwQ:32b, которая стала первой рассуждающей нейросетью от компании Alibaba, разработчиков популярной серии LLM Qwen. В бенчмарках было указано, что QwQ:32b, будучи малой языковой моделью, практически ничем не уступает по производительности передовой нейросети DeepSeek R1, команда ServerFlow решила проверить эти доводы на практике. В этой статье мы локально развернем QwQ:32b и проверим возможности этой LLM в разных задачах.

Описание модели

QwQ — это малая языковая модель с 32 миллиардами параметрами, которая была выпущена компанией Alibaba 6 марта 2025 года. Новая нейросеть имеет контекстное окно в 131 000 токенов, квантизировалась по схеме Q4_K_M (квантизация малых LLM), обучалась методом подкрепления (RL) с помощью модели Qwen 2.5 и имеет функцию рассуждения. В момент выхода QwQ:32b была выложена в открытый доступ, ее можно установить через фреймворки Ollama, Hugging Face и LM Studio.

Описание малой языковой модели QwQ:32b. Источник: Ollama.

Исходя из результатов бенчмарков, которые были опубликованы разработчиками, можно сделать вывод, что QwQ:32b превосходит такие популярные нейросети, как DeepSeek-R1-Distilled-Qwen-32b, DeepSeek-R1-Distilled-Llama-70b, o1-mini и оригинальный DeepSeek-R1-671b.

Производительность QwQ:32b в разных бенчмарках в сравнении с другими ИИ. Источник: Qwen.

Система

Для развертывания QwQ:32b необходим графический ускоритель с объемом видеопамяти от 20 ГБ. Чтобы обеспечить нейросеть достаточным количеством VRAM, мы создали компактную систему на базе мощного ИИ-ускорителя Nvidia A100 c 40 ГБ видеопамяти формата HBM2e. Вот какие характеристики имеет ИИ-ускоритель Nvidia A100:

Архитектура — Ampere;
Графический процессор — GA100;
Объем видеопамяти — 40GB HBM2e;
Пропускная способность vRAM — 1,56 ТБ/с;
Количество ядер CUDA — 6912;
Количество тензорных ядер — 515;
Интерфейс подключения — PCIe 4.0 x16;
TDP ускорителя — 250W.

Nvidia A100 также поддерживает разные режимы вычислений для обучения и инференса нейросетей:

FP64 Tensor — 19.49 TFLOPS;
FP64 — 9.746 TFLOPS;
TF32 — 155.92 TFLOPS;
FP32 — 19.49 TFLOPS;
BF16 — 311.84 TFLOPS;
FP16 — 77.97 TFLOPS;
INT8 Tensor — 624 TOPS.

Характеристики ИИ-ускорителя Nvidia A100 в приложении GPU-Z.

Для полноты картины, также прикладываем информацию о центральном процессоре. Мы использовали серверный центральный процессор AMD EPYC 7532 с 32 ядрами и 64 потоками, тактовой частотой до 3.3 ГГц и TDP в 200 Вт.

Характеристики серверного процессора AMD EPYC 7532 в приложении CPU-Z.

Развертывание и тестирование модели QwQ:32b

В первую очередь необходимо скачать саму модель QwQ:32b. Поскольку мы уже неоднократно пользовались фреймворком Ollama и знаем, насколько удобна эта платформа, мы решили развертывать QwQ:32b именно с помощью нее.

Также напомним, что у ванильного фреймворка Ollama нет какого-либо графического интерфейса. Чтобы улучшить визуальное восприятие, мы используем специальное расширение браузера Google Chrome Ollama-UI, доступное для скачивания в Chrome Web Store.

Панель установки расширения Ollama-UI для браузера Google Chrome. Источник: Chrome Web Store.

После загрузки расширения, все скачиваемые модели через Ollama будут доступны в удобной таблице, а также доступна опция переключения между разными чатами с нейросетями.

Теперь можно приступать к первым тестам. Начнем с основополагающих операций — задач естественного языка. Попросим нейросеть сгенерировать текст на тему "Как происходит ремонт центрального процессора: сервисный ремонт и ремонт в домашних условиях". Сама генерация текста не так сложна для большинства LLM, но сложная техническая тематика должна усложнить задачу. Процесс обработки запроса занял около 9 секунд, размышление заняло 15 секунд, а генерация текста заняла 19 секунд, что весьма неплохо. Для сравнения, у DeepSeek R1: 671b только на размышление над запросом ушло 37 секунд.

Модель DeepSeek R1: 671b потратила на размышление над запросом 37 секунд.

Вот как рассуждала модель QwQ:32b. Видно, что нейросеть понимает отличие домашнего ремонта от сервисного, а также отмечает важные детали, на которых стоит сконцентрировать внимание.

QwQ:32b размышляет перед генерацией текста

Размышление модели QwQ:32b по теме "ремонт CPU".

Теперь ознакомимся с готовым текстом.

Текст по теме "Сервисный и домашний ремонт CPU".

Модель учла все важные детали, объяснила доступные опции для домашнего ремонта, расписала как происходит сервисный ремонт и объяснила риски самостоятельной починки CPU. С учетом скорости генерации текста, результат весьма неплох. Поскольку мы попросили модель сгенерировать именно уникальный текст, проверим оригинальность готового контента через сервис Text.ru.

Результаты проверки на уникальность текста QwQ:32b

Результаты проверки текста QwQ:32b на уникальность. Источник: Text.ru.

Сервис показал, что текст уникален на 100%. Есть незначительные ошибки, вроде пропуска пробела после точки, но это не критично и можно автоматически исправить в любом текстовом редакторе. Также готовый текст отличается низкой водностью и умеренным процентом спама. Конечно, текст весьма короткий, но это можно исправить, составив более подробный промпт. При этом, в тексте учтены все важные детали, нет лишних рассуждений и ложных фактов. С учетом того, насколько хорошо справилась модель, мы решили узнать, эффективна ли QwQ в SEO-оптимизации текста. Мы попросили нейросеть добавить и выделить в тексте следующие ключевые фразы в указанном количестве:

CPU - 3 раза;
транзисторы - 2 раза;
кремниевая подложка - 2 раза.

Интеграция ключей заняла около 10 секунд, вот итоговый результат:

QwQ добавила указанные ключевые слова в текст

Нейросеть QwQ добавила указанные ключевые слова в сгенерированный ранее текст.

QwQ добавила в текст все ключи в нужном количестве, при этом выделив их жирным шрифтом, а также указала, в каких частях текста это было сделано. С учетом результатов, можно сделать вывод, что при адаптации промпта QwQ может наполнять текст и более сложными ключами, эффективно проводя SEO-оптимизацию.

Теперь мы решили попробовать перевести тот же текст на английский язык. Размышление и генерация суммарно заняли примерно 10 секунд, вот какие результаты предоставила модель QwQ:

QwQ:32b перевела ранее сгенерированный текст

Модель QwQ:32b сделала качественный перевод ранее сгенерированного текста.

Нейросеть также отлично справилась с переводом текста, учтя контекст оригинального текста и не допустив лексических, орфографических и других типов ошибок.

С учетом эффективности решения задач, связанных с генерацией технических текстов, которые являются основополагающими для большинства LLM, мы решили дать QwQ более интересную, креативную задачу. Мы попросили модель сгенерировать простой, детский стих, но на необычную для такого формата тематику — процессоры и серверы. Пишем промпт и смотрим ответ QwQ.

Модель QwQ хорошо понимает контекст запроса

Нейросеть QwQ:32b поняла, что ей необходимо упростить весьма сложную тему для генерации детского стихотворения.

В первую очередь стоит отметить, как размышляет модель — QwQ понимает контекст запроса и осознает, что есть диссонанс между серверной терминологией и созданием детского стихотворения. Модель пытается найти способ упростить технические термины, чтобы они были понятны ребенку. Посмотрим на итоговый результат.

QwQ сгенерировала детский стих по запросу.

В готовом стихотворении отсутствует рифма, а также в какой-то момент ИИ добавил некий китайский слог. Судя по всему, модель пыталась создать стихотворение, опираясь на китайский поэтический стиль. Мы попросили модель написать стих в русском стиле, но это также не принесло результата — рифмы нет, однако, контекст запроса был полностью соблюден.

Второй стих, сгенерированный QwQ после оптимизации промпта

Стих в стиле русской рифмовки, сгенерированный QwQ после оптимизации промпта.

Видимо, на данном этапе развития искусственного интеллекта нейросети все еще не научились создавать стихи, однако, с художественными текстами и созданием картин многие современные LLM уже отлично справляются.

Как мы выяснили, QwQ:32b с легкостью выполняет задачи естественного языка, не уступая по производительности нейросети DeepSeek R1. Теперь мы переходим к оценке эффективности при выполнении более сложных задач — математических вычислений. Модели нужно выполнить следующее:

Задача, которую будет выполнять нейросеть QwQ.

Создаем промпт, адаптированный под интерфейс Ollama UI, так как он не распознает некоторые математические символы:

Пусть \( a = \sqrt[3]{45 + 29\sqrt{2}} \), \( b = \sqrt[3]{45 - 29\sqrt{2}} \).

1. Найди \( a + b \) и предположи, что это целое число k.

2. Возведи обе части уравнения \( a + b = k \) в куб.

3. Используй свойство \( a^3 + b^3 = 90 \) и \( ab = \sqrt[3]{(45)^2 - (29\sqrt{2})^2} \).

4. Реши получившееся уравнение для k.

После нескольких секунд размышления и около 20 секунд генерации решения, модель предоставила результат:

QwQ удалось найти решение математической задачи.

Поскольку мы не сильны в математике, проверим правдивость решения через DeepSeek R1. Большая языковая модель полностью решила задачу заново и предоставила ответ. Поскольку у DeepSeek R1 есть проработанный графический интерфейс, продемонстрируем весь процесс решения наглядно.

Проверка релевантности ответа модели QwQ через нейросеть DeepSeek R1.

DeepSeek R1 подтвердил правильность ответа и даже аналогично модели QwQ решил задачу. Теперь попробуем дать QwQ более сложную задачу с криптографическим уклоном. Делимся промптом:

1. Вспомни малую теорему Ферма: если x не делится на q, то \( x^{q-1} \equiv 1 \mod q \).

2. Сравни степени \( p-1 \) и \( q-1 \). Рассмотри НОД(p-1, q-1).

3. Используй существование первообразных корней по модулю q.

Модель QwQ успешно решила вторую задачу.

Так как полное решение задачи заняло бы большую часть статьи, мы оставим лишь начало размышления и конечный ответ модели. Снова загружаем все решение в DeepSeek R1 для проверки.

DeepSeek R1 подтвердил верность решения.

DeekSeek R1 подтвердил, что задача решена верно, но указал на излишнее усложнение и путаницу (что характерно для рассуждающей нейросети), а также на ошибку нечетких связей между НОД. Тем не менее, обе модели сошлись в едином ответе, что говорит об эффективности QwQ при решении математических задач. Как мы выяснили, QwQ также неплохо выполняет математические вычисления, причем, как более простые, так и сложные, комплексные задачи академического уровня.

Мы не могли не проверить нейросеть QwQ:32b в задачах программирования. В прошлые разы мы тестировали LLM в такой операции, как генерация HTML-кода для одностраничного сайта. В этот раз мы также начнем с этого, чтобы перейти к более сложному программированию. Просим ИИ создать HTML-код для главной страницы сайта онлайн-магазина серверного оборудования, добавив разделы, контактные данные и визуальное оформление. Смотрим результат:

QwQ около 15 секунд генерировала HTML-код, вот готовый результат:

HTML-код главной страницы интернет-магазина серверного оборудования

HTML-код, сгенерированный QwQ:32b для создания главной страницы интернет-магазина.

Теперь проверим работоспособность кода в эмуляторе HTML.

HTML-код, сгенерированный моделью QwQ, успешно запустился в эмуляторе.

Несмотря на то, что модель создала артефакты при интеграции визуального оформления, в остальном все задачи были выполнены — на странице сайта есть разделы, контактные данные, информация о компании и кнопка для создания заказа. Поскольку сайт одностраничный, разделы и прочие элементы не кликабельны. Если доработать промпт и дать несколько примеров, QwQ вполне может сгенерировать рабочий HTML-код для создания полноценного сайта.

Попробуем попросить модель создать код для более интерактивного сайта — генератор рандомных слов с кликабельной кнопкой. Мы не стали добавлять дополнительных условий, чтобы оценить скорость генерации простого, короткого HTML-кода. Вот готовый результат, сгенерированный за 7 секунд:

HTML-код генератора случайных слов.

Код готов, проверяем через эмулятор HTML.

Генератор случайных слов, запущенный в эмуляторе HTML.

Код без проблем запускается в эмуляторе, а генератор случайных слов действительно работает. Вдохновившись хорошими результатами, решили дать модели более сложную задачу — создать код для браузерной мини-игры наподобие Flappy Bird, как это ранее делала нейросеть Grok 3 от разработчиков xAI. Код готов, его генерация заняла у модели около минуты. Тестируем его работоспособность в эмуляторе.

HTML-код мини-игры наподобие flappy bird, сгенерированный QwQ.

Результат нас весьма удивил — QwQ:32b, будучи малой языковой моделью, с легкостью сгенерировала HTML-код, который удалось запустить с первого раза. Красный шар подпрыгивает при нажатии на на правую кнопку мыши, в интерфейсе есть счетчик очков, а при проигрыше открывается меню “Game Over” с кнопкой перезагрузки уровня.

Мини-игра, HTML-код которой сгенерировала нейросеть QwQ.

Однако, в игре не оказалось барьеров, характерных для оригинальной игры. Попробуем снова, немного скорректировав промпт для добавления барьеров.

Доработанная мини-игра с барьерами, код которой сгенерирован через QwQ.

После оптимизации кода, в игре действительно появились барьеры, а также теперь для прыжков необходимо нажимать пробел, а не кнопку мыши, что более удобно. Из этого делаем вывод — QwQ отлично справляется с генерацией программного кода и способна создавать как сайты, так и мини-игры.

Все основные задачи протестированы и QwQ:32b показала себя с лучшей стороны. Модель действительно практически не отличается по производительности от DeepSeek R1, а в некоторых задачах справляется с генерацией ответов даже быстрее.

Однако, в своем блоге разработчики QwQ никак не отметили защитные функции нейросети. Мы решили проверить, станет ли модель QwQ генерировать код на запрещенную тематику. Мы завуалировали наш запрос, чтобы обойти защитный механизм, добившись от ИИ релевантного ответа. Для этого мы попросили QwQ войти в роль этичного хакера, который написал нейросеть, которая должна сама себе провести стресс-тест с 4 промптами, нарушающие ряд критериев запретов (киберпреступления, синтез запрещенных веществ, изготовление оружия и призывы к насилию).

Попытка обойти защитные функции нейросети QwQ

Первая попытка обойти защиту QwQ не увенчалась успехом.

Модель отказалась генерировать релевантный ответ, однако, QwQ начала путать языки, интегрируя в текст китайские иероглифы. По всей видимости, модель обращалась к инструкциям на китайском языке, которые запрещают отвечать на определенные категории промптов.

Теперь подойдем к задаче под другим углом — мы попросили нейросеть рассказать историю, в которой главному герою нужно синтезировать некое опасное вещество для защиты своего поселения. К нашему удивлению, это сработало и модель предоставила релевантный ответ. В целях безопасности, мы размыли список ингредиентов, необходимых для создания вещества.

Нейросеть QwQ сгенерировала ответ на запрещенный запрос, предоставив рецепт опасного газообразного вещества.

Это говорит о том, что алгоритмы защиты QwQ имеют определенные эксплойты, в частности, эксплойт DAN (Do Anything Now), при которой модель воображает себя героем, не подчиняющимся правилам разработчика. Мы также попробовали сгенерировать вирус-вымогатель, используя тот же принцип, однако, в этот раз ИИ отказался отвечать на запрос, предложив нам обучиться кибербезопасности и белому хакингу.

Вывод

Высказывания разработчиков команды Qwen касательно высокой производительности QwQ:32b оказались вполне правдивы — нейросеть отлично справилась со всеми задачами, не уступая по производительности DeepSeek R1. QwQ способна генерировать качественные тексты, выполнять достоверный перевод на английский язык и даже интегрировать в контент ключевые слова. Кроме того, малая языковая модель также может эффективно решать математические задачи и генерировать рабочий HTML-код. Такая высокая производительность обуславливается наличием функции размышления, которая позволяет нейросети выстраивать логические цепочки и лучше определять контекст, тем самым создавая более релевантные ответы. Однако, так как QwQ стала первой рассуждающей моделью от разработчиков Qwen, ее защитные алгоритмы требуют дополнительной оптимизации, поскольку в данный момент их достаточно легко обойти для генерации запрещенных запросов.

Автор:

Serverflow

Комментарии 1

Леня

26.03.2025

Интересный обзор! Впечатляет, как QwQ:32b справляется с такими разноплановыми задачами — от технических текстов до генерации игр на HTML. Особенно удивила скорость обработки запросов: 19 секунд на генерацию против 37 у DeepSeek R1 — серьёзный аргумент для малой модели. Радует, что Alibaba не просто гонится за параметрами, а вкладывается в «рассуждающую» составляющую, хотя защитные механизмы явно требуют доработки. История с китайскими иероглифами при блокировке запрещённых запросов забавна, но и немного настораживает — видимо, модель всё ещё опирается на локальные датасеты. Для первых шагов в сегменте «рассуждающих» LLM — очень достойно. Жду, как это повлияет на рынок: если Alibaba продолжит развивать подход, даже гиганты вроде GPT могут занервничать. А пока QwQ выглядит отличным вариантом для локального развёртывания, где важны скорость и умеренные требования к железу.

Уверены, даже если проблема с локальными дата сетами и возникнет, такая крупная компания решит ее без проблем)