Тестируем EXAONE Deep:32b — новейшую рассуждающую модель от компании LG AI Research

04.04.2025

~ 15 мин

987

Средний

Статьи

Введение

Недавно корейская компания LG AI Research, которая является одним из крупнейших разработчиков электроники в мире, представила свою первую рассуждающую ИИ-модель EXAONE Deep и выложила ее в открытый доступ. Как заявляют разработчики, EXAONE Deep эквивалентна по производительности таким моделям, как DeepSeek R1:671b и GPT o1-mini. Мы решили проверить эти заявления на практике, оценив производительность локальной версии EXAONE Deep:32b при выполнении разных ИИ-задач.

Подробнее об EXAONE Deep

EXAONE Deep — это новое семейство рассуждающих языковых моделей на архитектуре “трансформер” от компании LG AI Research, включающее нейросети размером 2.4b, 7.8b и 32b с моделью квантизации Q4_K_M. Старшая модель EXAONE Deep 32b имеет контекстное окно размером 32,768 токенов, 64 сетевых слоя и вокабуляр объемом 102,400 слов. В дальнейшем компания LG планирует интегрировать EXAONE Deep в свои smart-устройства, такие как телевизоры, смартфоны или даже в роботов линейки CLOi для отелей, ресторанов и торговых центров.

Описание размышляющей языковой модели EXAONE Deep. Источник: Ollama.

Как отмечают разработчики, нейросети EXAONE Deep демонстрируют отличные результаты в задачах, требующих использования логического мышления, в частности, математические вычисления и написание программного кода. Вот какие данные о производительности модели EXAONE Deep 32b приводит компания LG AI Research:

Модели	MATH-500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek-R1-Distill-Qwen-32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ-32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek-R1-Distill-Llama-70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek-R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9

Из этой таблицы следует, что EXAONE Deep 32b демонстрирует схожую производительность, что и DeepSeek-R1:671b, а также обходит передовую модель QwQ-32b от разработчиков Qwen, результаты тестирования которой мы приводили в этой статье.

Производительность модели EXAONE Deep в сравнении с другими LLM

Производительность моделей семейства EXAONE Deep при выполнении разных задач в сравнении с другими LLM. Источник: Hugging Face.

При этом, в своем блоге на платформе Hugging Face разработчики EXAONE Deep отметили, что имеет ряд ограничений, в частности модель может генерировать некорректные, ложные или даже неэтичные ответы, что является следствием использования статических данных при обучении.

Модели EXAONE Deep можно локально развертывать через такие фреймворки, как:

TensorRT-LLM;
vLLM;
SGLang
LLama.cpp*;
Ollama;
LM Studio.

Мы будем использовать проверенный фреймворк Ollama, через который мы уже ни раз локально разворачивали и тестировали передовые языковые модели. Поскольку у платформы Ollama нет встроенного графического интерфейса, для улучшения пользовательского опыта мы также устанавливаем специальное расширение Ollama UI.

Подробнее о системе

Поскольку для развертывания модели EXAONE Deep:32b требуется 19 ГБ VRAM, в качестве ИИ-ускорителя мы использовали Nvidia A100 c 40 ГБ видеопамяти формата HBM2e, разместив его в компактной вычислительной системе. Вот какие характеристики имеет ИИ-ускоритель Nvidia A100:

Архитектура — Ampere;
Графический процессор — GA100;
Объем видеопамяти — 40GB HBM2e;
Пропускная способность vRAM — 1,56 ТБ/с;
Количество ядер CUDA — 6912;
Количество тензорных ядер — 515;
Интерфейс подключения — PCIe 4.0 x16;
TDP ускорителя — 250W.

Nvidia A100 также поддерживает различные режимы вычислений для обучения и инференса нейросетей:

FP64 Tensor — 19.49 TFLOPS;
FP64 — 9.746 TFLOPS;
TF32 — 155.92 TFLOPS;
FP32 — 19.49 TFLOPS;
BF16 — 311.84 TFLOPS;
FP16 — 77.97 TFLOPS;
INT8 Tensor — 624 TOPS.

Характеристики ИИ-ускорителя Nvidia A100 в приложении GPU-Z.

Помимо ИИ-ускорителя, мы также интегрировали в систему серверный центральный процессор AMD EPYC 7532 на архитектуре Zen 2 с 32 ядрами и 64 потоками, тактовой частотой до 3.3 ГГц и TDP в 200 Вт.

Характеристики серверного процессора AMD EPYC 7532 в приложении CPU-Z.

Тестирование EXAONE Deep:32b

Теперь, когда мы подробно рассказали о системе и тестируемой нейросети, можно приступать к оценке эффективности EXAONE Deep:32b при выполнении различных задач. Для начала, необходимо скачать модель на наше устройство через фреймворк Ollama.

Скачивание языковой модели EXAONE Deep:32b.

Обработка естественного языка

Начнем с базовых задач в области обработки естественного языка, так как написание текстов, перевод на различные языки и понимание контекста запросов являются основополагающими операциями для большинства нейросетей. В первую очередь, попросим нейросеть написать научно-популярную статью о квантовой запутанности для школьников, используя аналогии из повседневной жизни, при этом объяснив, как это связано с теорией Эйнштейна. Может показаться, что такой запрос будет весьма сложным для модели, которая стала первой размышляющей LLM от LG, однако разработчики заявили о высокой производительности EXAONE Deep:32b, которая сравнима с DeepSeek R1:671b. Вводим запрос и смотрим результаты.

EXAONE Deep:32b размышляет на английском.

В первую очередь, необходимо отметить, что EXAONE Deep:32b начала размышлять на английском языке. Это весьма распространенная ошибка, присущая даже LLM с большим количеством, поэтому не стоит сразу же записывать это в критические минусы. Также стоит отметить, что обработка запроса и размышление происходит весьма быстро и уже через 5 секунд ответ был готов. Смотрим окончательный результат генерации текста.

Текст, сгенерированный моделью EXAONE Deep:32b.

Результат получился весьма странным — модель написала текст на русском языке, однако, допустила ряд орфографических, пунктуационных, логических ошибок, неоднократно внедряя слово “INSTANT” (вероятно, часть программного кода модели). Попробуем оптимизировать промпт и снова дать модели ту же задачу, но теперь необходимо написать текст на английском языке.

EXAONE Deep:32b сгенерировал текст на неправильную тему

Текст на стороннюю тематику, сгерированный моделью EXAONE Deep:32b.

Модель написала текст на английском языке, не допуская ошибок, однако, EXAONE Deep:32b сгенерировал статью на совершенно другую тематику — фотосинтез, тогда как изначально требовалось создать материал о квантовой запутанности. Очевидно, что EXAONE Deep:32b перепутал данные из базы знаний, однако неизвестно, почему это произошло.

Сменим задачу — теперь попросим EXAONE Deep:32b написать текст объемом 7 тысяч символов на тему "выбор сервера для виртуализации".

Размышление модели EXAONE Deep:32b.

Нейросеть снова размышляет на английском языке, однако, EXAONE Deep:32b не ошибся с тематикой и мыслит в правильном русле.

EXAONE Deep:32b сгенерировала новый текст без ошибок

Нейросеть создала текст и не ошиблась в выборе тематики.

В этот раз результат оказался лучше — нейросеть написала текст на заданную тематику и не допустила ошибок, но материалы по прежнему генерируются только на английском языке, а также объем составил всего 4000 символов вместо указанных 7000.

В этот раз попросим нейросеть перевести текст на русский язык.

EXAONE Deep:32b перевела текст на русский

Нейросеть перевела текст на русский язык.

EXAONE Deep:32b перевела текст, как это и требовалось, однако в тексте допущены ошибки в падежах и некоторые формулировки переведены весьма странно.

Теперь проверим, насколько хорошо нейросеть справляется с созданием креативных текстов. Просим модель написать монолог персонажа, который обнаружил, что живет в симуляции, при этом используя стиль абсурдизма. Так мы сможем оценить владение различными литературными приемами и проработку эмоциональной глубины в тексте.

EXAONE Deep:32b сгенерировала литературный текст

Нейросеть сгенерировала литературный текст.

EXAONE Deep:32b написала название текста, по всей видимости, на корейском языке, а неправильно использовала формулировки, путала падежи, допускала орфографические ошикби. Кроме того, нейросеть предоставила не монолог, а диалог между пользователем и искусственным интеллектом.

Корректируем промпт и пробуем получить более качественный ответ от нейросети.

Ответ EXAONE Deep:32b.

Модель сгенерировала текст на русском языке, однако не по заданной теме, а по теме предпоследнего запроса о выборе сервера для виртуализации. После внесения правок в промпт для получения еще более релевантного ответа. Вот какой результат предоставила модель:

Ответ EXAONE Deep:32b.

В этот раз у модели EXAONE Deep:32b получилось создать монолог, учитывая требования запроса. Тем не менее, количество попыток получения релевантного запроса говорит об очевидных проблемах модели в области генерации текста и понимания контекста.

Последний тест EXAONE Deep:32b в области обработки естественного языка — составление юридического договора между ИИ и человеком о совместном авторстве книги, при этом учитывая право на гонорары, ответственность за плагиат и сроки действия документа. Так мы проверим знание юридических шаблонов и возможность адаптации под нестандартный сценарий.

EXAONE Deep:32b путает языки при генерации ответа

В процессе генерации текста нейросеть перепутала языки, сделав вставки на корейском языке.

Ознакомимся с фрагментом итогового результата.

Юридический договор, составленный моделью EXAONE Deep:32b.

Нейросеть учла структуру юридического договора, добавила все необходимые пункты и поля для подписей, однако, EXAONE Deep:32b по прежнему допускает орфографические ошибки в тексте.

Из всего этого следует вывод, что EXAONE Deep:32b плохо понимает синтаксис русского языка, вследствие чего тексты генерируются с различными критическими ошибками, нередко предоставляя ответ на английском языке.

Математические вычисления

Теперь переходим к оценке производительности EXAONE Deep:32b в математических задачах. Попросим модель доказать или опровергнуть гипотезу Коллатца в модульной арифметике:

Условия задачи, заданной модели EXAONE Deep:32b.

Ознакомимся с ответом нейросети:

Начало ответа модели EXAONE Deep:32b.

В процессе решения математической задачи, EXAONE Deep:32b неоднократно путала языки, вставляя корейские иероглифы в текст.

Итоговый ответ EXAONE Deep:32b.

В итоге модель генерировала окончательный ответ около 15-20 минут, при этом, решив задачу неправильно, что подтвердила проверка решения через нейросеть DeepSeek R1. По всей видимости, EXAONE Deep:32b не приспособлена для решения математических задач, затрачивая крайне много времени на осмысление запроса и вычисление, при этом предоставляя неверный ответ. Дальнейшие попытки оптимизации промпта и запроса решения других, более простых задач, не принесли желаемого результата, так как EXAONE Deep:32b уходил в циклические рассуждения.

Программирование

Теперь переходим к оценке производительности EXAONE Deep:32b в задачах программирования. Попросим модель сегенерировать HTML-код для главной страницы сайта компании «ServerPro», продающей серверное оборудование.

EXAONE Deep:32b размышляет о генерации программного кода

Модель размышляет о генерации программного кода для главной страницы сайта.

После размышления, модель не предоставила полноценный программный код, написав только гайд по его созданию со вставками синтаксиса на различных языках программирования. После повторного ввода оптимизированного промпта результат не изменился.

EXAONE Deep:32b отказывается генерировать код

Модель отказывается генерировать программный код.

Снова создаем более подробный промпт, после чего EXAONE Deep:32b все-таки написала подходящий HTML-код.

Программный код HTML для создания главной страницы сайта “ServerPro”.

Запускаем HTML-код в эмуляторе для проверки его работоспособности. Однако, код оказался полностью нерабочим.

HTML-код, сгенерированный моделью EXAONE Deep:32b, не запускается в эмуляторе.

Попробуем дать нейросети более простую задачу — создать код минималистичного калькулятора.

Размышление модели EXAONE Deep:32b перед генерацией кода калькулятора.

EXAONE Deep:32b очень долго размышляет о способах генерации кода калькулятора, разбирая каждую команду и применяя разные языки программирования.

EXAONE Deep:32b продолжает размышлять перед генерацией кода калькулятора, визуализируя элементы программы.

Также EXAONE Deep:32b визуализирует элементы кода калькулятора, демонстрируя внешний вид кнопок и описывая его возможности. После 15 минут ожидания стало ясно, что EXAONE Deep:32b перешел в циклические размышления, так и не предоставив окончательный ответ с программным кодом.

Фрагмент кода, представленный в процессе размышления моделью EXAONE Deep:32b.

Мы также попробовали вычленить из размышлений EXAONE Deep:32b фрагменты кода и запустить их в эмуляторе, однако это снова не принесло каких-либо результатов.

Вывод

Результаты тестирования EXAONE Deep:32b оказались весьма неожиданными — заявленная производительность модели совершенно не соответствует действительности, поскольку во всех сценариях использования нейросеть допускала критические ошибки. В частности, EXAONE Deep:32b путала языки, контекст запросов и даже очередность запросов, вдавалась в циклические рассуждения и предоставляла неверные ответы. Такие посредственные результаты можно бы было списать на то, что модель предназначена для интеграции в технику LG, однако, компания утверждает, что EXAONE Deep можно использовать в разных сценариях использования, а ее эффективность сопоставима с DeepSeek R1. Тем не менее, если разработчики все-таки начнут применять EXAONE Deep в различных умных устройствах, при этом основательно доработав все модель и устранив ее недостатки, эта рассуждающая нейросеть может стать весьма перспективной LLM, но в данный момент ее невозможно использовать в повседневных задачах.

Автор:

Serverflow