Компания Anthropic выпустила долгожданное обновление семейства Claude, а именно флагманскую ИИ-модель Opus 4.5, которая имеет все шансы стать лучшим в мире ИИ-инструментом для кодинга, построения агентных систем и выполнения других сложных задач. В Opus 4.5 были значительно улучшены аналитические и вычислительные способности, при этом стоимость использования нейросети удалось снизить в 3 раза по сравнению с предыдущей версией Opus 4.1. Разработчики подчеркивают, что Opus 4.5 демонстрирует скачок не только в показателях условных тестов, но и в практических задачах, где требуется нестандартное мышление и многоэтапное рассуждение.
Подробнее о Claude Opus 4.5
Основной прирост производительности модель Claude Opus 4.5 демонстрирует именно в задачах программирования. По результатам бенчмарка SWE-bench Verified Opus 4.5 достигает лидирующих позиций с 80,9%, тогда как Gemini 3 Pro набирает лишь 76,2%, а GPT-5.1 набирает 77,9%. В многоязычной версии SWE-bench нейросеть также занимает первое место в семи из восьми языков, а в тестах Aider Polyglot LLM демонстрирует на 10% большую эффективность, чем предыдущий флагман Sonnet 4.5. Внутренний тест Anthropic, представляющий собой двухчасовую инженерную задачу, стал показательным: Opus 4.5 набрал результат выше всех кандидатов среди сотрудников Anthropic — разработчики считают важной вехой в применении ИИ в инженерных дисциплинах.
Показатели производительности Claude Opus 4.5 в сравнении с другими топовыми ИИ-моделями. Источник: .
Модель Opus 4.5 также стала заметно сильнее в задачах, требующих многоэтапных размышлений. В тесте τ2-bench, где ИИ-агент на базе нейросети Claude Opus 4.5 использовался в роли сотрудника авиакомпании, при строгих ограничениях политики перевозчика модель не просто следовала ожидаемому отказу, а выявила альтернативную стратегию: предложила повысить класс обслуживания, после чего не нарушая инструкций изменила бронирование. Формально тест засчитал это как ошибку, поскольку сценарий не предусматривал такого решения, однако тест показал, что Opus 4.5 способна мыслить нестандартно, как человек. Несмотря на это, тест оценил эффективность модели в 98,2% — высочайший результат среди всех топовых ИИ.
Также в API Anthropic появилась новая настройка effort, необходимая для регулирования уровня размышлений модели. Opus 4.5. На средней глубине размышления Opus 4.5 достигает точности Sonnet 4.5, но использует на 76% меньше выходных токенов. При установке самого высокого уровня размышлений модель превосходит производительность Sonnet 4.5 более чем на 4%, оставаясь при этом почти в 2 раза экономичнее по количеству токенов. Дополнительно в модели Opus 4.5 реализовали улучшенные системы оптимизации контекста, управления памятью и более эффективную модель контроля нескольких субагентов, обеспечивающие дополнительный прирост почти на 15% производительности при углубленных исследованиях.
Claude Opus 4.5 значительно снижает стоимость генерации токенов в сравнении с Claude Sonnet 4.5. Источник: .
Отдельным направлением стало снижение стоимости: Opus 4.5 стоит $5 за 1 миллион входных токенов и $25 за миллион выходных, тогда как стоимость использования Opus 4.1 достигала $15 и $75 соответственно. Другими словами, новая флагманская модель стала в 3 раза дешевле при гораздо большей производительности, благодаря чему количество сценариев использования Opus 4.5 значительно увеличивается, а ее использование становится намного более выгодным. Anthropic также обновила приложения и инструменты, чтобы раскрыть весь потенциал модели Opus 4.5. В частности, Claude Code получил улучшенный режим планирования и появился в настольном приложении, для Chrome и Excel расширили доступ, а длинные диалоги теперь автоматически поддерживаются без обрыва контекста. Кроме того, Anthropic значительно улучшила политики безопасности Claude Opus 4.5, укрепив устойчивость нейросети к промпт-инъекциям и другим способам обойти защитные механизмы модели.
Выводы
Claude Opus 4.5 представляет собой редкое сочетание роста интеллектуальных возможностей, улучшенного поведения в сложных сценариях при значительном снижении стоимости использования. Модель показывает эквивалентную или даже превосходящую производительность над топовыми ИИ-решениями OpenAI и Google, а также расширяет пределы возможностей агентных систем и фактически превращает передовой ИИ из премиального инструмента в доступный рабочий инструмент.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.