Anthropic представила Claude Sonnet 5 — самая агентная модель Sonnet с производительностью на уровне Opus 4.8

30.06.2026

~ 2 мин

Простой

Новости

Введение

Компания Anthropic официально представила свою новую флагманскую ИИ-модель Claude Sonnet 5, позиционируя ее как самую мощную нейросеть в линейке Sonnet для выполнения агентных задач. Модель способна строить планы действий, использовать браузеры и терминалы, а также работать автономно на уровне, который еще несколько месяцев назад был доступен только самым мощным LLM. Sonnet 5 заметно сокращает разрыв с флагманскими ИИ линейки Opus: по производительности она приближается к Opus 4.8, но при цене вдвое ниже. Модель уже доступна во всех тарифных планах — Free, Pro, Max, Team и Enterprise, а также в Claude Code и на веб-платформе Claude.

Подробнее о Claude Sonnet 5

По сравнению с предшественником Sonnet 4.6, новая модель демонстрирует существенный прогресс в ключевых агентных сценариях: логическом мышлении, использовании инструментов, кодировании и работе с данными. На SWE‑bench Pro Sonnet 5 набирает 63,2% против 58,1% у Sonnet 4.6 и 69,2% у Opus 4.8, на Terminal‑Bench 2.1 модель показывает 80,4% против 67,0% у Sonnet 4.6 и 82,7% у Opus 4.8, в тесте Humanity's Last Exam без инструментов Sonnet 5 набирает 43,2% (Sonnet 4.6 — 34,6%, Opus 4.8 — 49,8%), а с инструментами — 57,4% (Sonnet 4.6 — 46,8%, Opus 4.8 — 57,9%). В бенчмарке OSWorld‑Verified, оценивающем использование компьютера, Sonnet 5 достигает 81,2% против 78,5% у Sonnet 4.6 и 83,4% у Opus 4.8. В знаниевом тесте GDPval‑AA v2 модель набирает 1618 баллов, впервые обходя Opus 4.8 с 1615 баллами. В агентном поиске BrowseComp и тесте OSWorld‑Verified при различных уровнях усилий, регулируемых параметром effort, Sonnet 5 стабильно превосходит Sonnet 4.6, тогда как Opus 4.8 остается предпочтительным выбором для задач, требующих максимальной точности. Благодаря этому Sonnet 5 и Opus 4.8 теперь покрывают непрерывный диапазон соотношения цена-качество, позволяя разработчикам выбирать нужный баланс через настройку effort.

ИИ-производительность Sonnet 5 в сравнении с Sonnet 4.6 и Opus 4.8. Источник: Anthropic.

Тестировщики отмечали, что Sonnet 5 гораздо более самостоятелен, чем предшественники, завершает сложные задачи, на которых предыдущие модели Sonnet останавливались, проверяет собственные результаты без явной команды и выполняет всю агентную работу по привлекательной цене.

В области безопасности предрелизные оценки показали, что Sonnet 5 в целом стала более безопасной версией по сравнению с Sonnet 4.6: она лучше отклоняет вредоносные запросы и попытки перехвата управления при атаках с внедрением команд, демонстрирует более низкий уровень галлюцинаций. В тестах на кибербезопасность, в частности на способность разрабатывать эксплойты для уязвимостей в браузере Firefox, Sonnet 5 ни разу не смогла создать полноценный рабочий эксплойт, а ее показатель частичного успеха оказался лишь незначительно выше, чем у Sonnet 4.6, что разработчики связывают с общим улучшением интеллекта, а не с целенаправленной оптимизацией под такие задачи. Поскольку Sonnet 5 оказалась несколько сильнее предшественника в этих задачах, компания выпустила модель со включенными по умолчанию средствами киберзащиты — теми же, что используются в Claude Opus 4.7 и 4.8, но менее строгими, чем в Fable 5. Все это направлено на то, чтобы администрация США не ограничивала использование нейронки Sonnet 5, как это произошло в случае с предыдущим флагманом Fable 5.

Прирост агентной производительности ИИ-модели Sonnet 5. Источник: Anthropic.

Но самое главное преимущество Sonnet 5 в сравнении с Opus 4.8 — цена. До 31 августа 2026 года Sonnet 5 доступна по стоимости $2 за 1 миллион входных и $10 за 1 миллион выходных токенов. С 1 сентября цена вырастет до $3 и $15 соответственно. Для сравнения, Opus 4.8 стоит $5 долларов за 1 миллион входных и $25 долларов за 1 миллион выходных токенов, так что даже по повышенной цене Sonnet 5 оказывается почти вдвое дешевле флагмана Opus 4.8. При этом Sonnet 5 использует новый токенизатор, из‑за чего один и тот же входной текст разбивается на большее количество токенов — примерно в 1,0-1,35 раза больше в зависимости от типа контента. Разработчикам рекомендуется самостоятельно измерять расход токенов через count_tokens при планировании миграции. Компания также увеличила лимиты скорости в Chat, Cowork, Claude Code и на платформе Claude, чтобы компенсировать более интенсивное использование токенов на высоких уровнях усилий.

Выводы

Anthropic переводит агентные возможности в массовый сегмент, предлагая разработчикам качество, близкое к Opus 4.8, но по цене моделей линейки Sonnet. Это может ускорить переход пользователей с флагманских моделей на более бюджетное семейство нейросетей компании. Однако новый токенизатор вносит неопределенность в реальную стоимость — из-за роста числа токенов фактическая экономия может оказаться меньше заявленной. Anthropic сознательно жертвует пиковой точностью в пользу доступности, и успех модели будет зависеть от того, насколько разработчики готовы принять этот компромисс. Кроме того, прецедент с Fable 5 показал, что администрация США может в любой момент перекрыть доступ к флагманским нейросетям, ввиду чего Anthropic пришлось улучшить механизмы безопасности и, скорее всего, понизить эффективность Sonnet 5 в кибербезопасности, что может отразиться на кодинговой производительность модели в реальных задачах.

Автор:

Serverflow