OpenAI представила GPT-5.2: экстремально длинный контекст для агентских задач

11.12.2025

~ 2 мин

1978

Простой

Новости

Введение

После череды намеков от Сэма Альтмана, OpenAI все-таки представила новую ИИ-модель GPT-5.2 под кодовым названием “Garlic”. Команда OpenAI проделала огромную работу, наделив GPT-5.2 возможностью поддерживать многочасовые цепочки действий, работать с экстремально длинным контекстом и выполнять сложные пайплайны ИИ-агентов без потери точности. В GPT-5.2 ставка сделана не на минорный прирост производительности, а на достижение максимальной эффективности в практических сценариях использования, делая новую нейросеть полноценным автономным инструментом для бизнес-операций, разработки кода и создания автоматизированных систем.

Подробнее о GPT-5.2

Новая версия GPT-5.2 обеспечивает значительный прирост эффективности в практических сценариях работы с кодом. В одном из самых жестких отраслевых бенчмарков SWE-Bench Pro модель GPT-5.2 Thinking демонстрирует точность в 55.6%, тогда как предыдущий флагман в лице GPT-5.1 достигает лишь 50.8%. GPT-5.2 также стала значительно лучше справляться с устранением багов, созданием патчей в реальных репозиториях и других особо сложных задачах кодинга. В облегченном варианте бенчмарка SWE-Bench Verified результат достигает 80% — это самый высокий результат, свидетельствующий о том, что код GPT-5.2 требует минимальных ручных правок даже при работе со сложными проектами на тысячи строчек кода и десятками файлов. Еще один важный апдейт — GPT-5.2 на 30% реже допускает генерацию галлюцинаций, чем GPT-5.1.

Производительность флагманской ИИ-модели GPT-5.2 в ключевых ИИ-бенчмарках. Источник: OpenAI.

Существенное внимание уделено работе с фронтендом. Тестировщики сообщают, что GPT-5.2 без каких-либо проблем генерируют код сложных компонентов интерфейса, включая элементы 3D и разметку высоконагруженных UI-структур. Модель GPT-5.2 впервые предлагает возможность создавать полноценные фронтенд-модули одним запросом, не разбивая проект на множество подзадач. Это позволяет рассматривать модель не как вспомогательный ИИ-генератор кода, а как инструмент для full-stack разработки.

Интерфейс приложения, сгенерированный GPT-5.2

Графический интерфейс, сгенерированный через GPT-5.2. Источник: OpenAI.

Существенным шагом вперед стала работа с длинными последовательностями. В режиме GPT-5.2 Thinking модель сохраняет точность даже при работе с экстремально длинными контекстами вплоть до 256 тысяч токенов, что подтверждается результатами тестов MRCRv2, где система практически безошибочно извлекает релевантные данные из крупных массивов текста. Это особенно при работе с техническими материалами, проектами с большим количеством файлов и юридическими документами, где важные компоненты текста могут быть заложены глубоко внутри документа. Кроме того, новый compact-режим позволяет модели поддерживать логическую связность даже за пределами активного контекста, что напрямую влияет на стабильность многочасовых агентных процессов. В целом, GPT-5.2 отлично справляется с задачами по более чем 44 тематикам, обходя реальных экспертов по знаниям в 70,9% при включении размышляющего режима.

Точность GPT-5.2 при работе с длинным контекстом

GPT-5.2 практически не теряет точности при работе с экстремально длинным контекстным окном. Источник: OpenAI.

Отдельным направлением улучшений стал инструментальный стек. В бенчмарке Tau2-bench Telecom GPT-5.2 достигает 98.7% точности при обращениям к инструментам, резко повышая предсказуемость поведения ИИ-агентов. Причем даже базовый конфигурационный режим размышления демонстрирует значительно более чистое принятие решений, чем предыдущие решения OpenAI. Компании, уже успевшие интегрировать GPT-5.2 в свои рабочие процессы, сообщают, что благодаря этому качеству они смогли заменить десятки специализированных агентов единой моделью GPT-5.2, который использовал свыше 20 инструментов в одной цепочки действий.

Производительность GPT-5.2 в Tau2-bench Telecom

Производительность GPT-5.2 в бенчмарке Tau2-bench. Источник: OpenAI.

Визуальный модуль модели также был значительно переработан. GPT-5.2 точнее интерпретирует графики, дашборды, интерфейсы и инженерные схемы, а ошибки чтения элементов GUI снизились почти на 50%. По данным компании, общее количество ошибок сокращено примерно на 1/3, что усиливает надежность модели в задачах аналитики, подготовке резюме документов и других задачах, требующих машинного зрения. Бенчмарки это подтверждают: в CharXiv Reasoning для анализа диаграмм модель набирает 88,7% точности, а в ScreenSpot-Pro при оценки GUI нейросеть достигает 86,3% точности, тогда как GPT-5.1 набирала лишь 80,3% и 64,2% в тех же тестах.

Точность машинного зрения GPT-5.2. Источник: OpenAI.

OpenAI уже добавила модель ChatGPT 5.2 для подписчиков тарифов Plus, Pro, Business и Enterprise. В API представлены конфигурации gpt-5.2, gpt-5.2-chat-latest и gpt-5.2-pro. Стоимость: $1.75за миллион входных и $14 за миллион выходных токенов, за кэшированные входных токенов цена выходных токенов снижается на 90%.

Выводы

Релиз GPT-5.2 фиксирует переход OpenAI от показательных возможностей к модели, которая максимально эффективно справляется с практическими задачами, выполняя сложные агентные сценарии и глубокую автоматизацию без каких-либо нареканий. Для бизнеса это сигнал о том, что крупные технологические процессы, которые раньше требовали распределенных систем из десятков разных ИИ-агентов, теперь могут поддерживаться одной моделью, интегрированной в существующие пайплайны разработки и аналитики.

Автор:

Serverflow