Google Titan — новый преемник ИИ-трансформеров

09.12.2025

~ 2 мин

336

Простой

Новости

Введение

Компания Google представила новую ИИ-архитектуру под названием Titan, которая призвана сместить с престола систему моделей трансформеров. Дело в том, что архитектура “внимания” уже практически изжила себя и столкнулась с фундаментальными ограничениями, поэтому ИИ-индустрия ждет нового прорыва, который сменит парадигму и устранит проблемы квадратичной сложности вычисления токенов, ограниченного контекстного окна и высоких системных требований.

Подробнее о Google Titan

Google Titan предлагает решение всех проблем современных LLM. Пока классические трансформеры начинают снижать точность уже на уровне примерно 4000 токенов, новая архитектура Google уверенно работает с последовательностями свыше двух 2 миллионов токенов и при этом не теряет качества. Вместо стандартного механизма внимания, исследователи Google внедрили в архитектуру Titan сразу 3 вида памяти: краткосрочную, долгосрочную и постоянную. Краткосрочная (Memory as Context) по-прежнему основана на attention и отвечает за последние фрагменты контекста. Долгосрочная (Memory as Gating) хранит важные элементы, накапливающиеся по ходу обработки данных и обновляемые прямо во время инференса. Постоянная (Memory as Layer) выступает в роли устойчивого фундамента, куда попадают ключевые сведения, не зависящие от конкретного ввода.

Три типа памяти архитектуры Google Titan

Схема работы трех видов памяти архитектуры Google Titan. Источник: arxiv.

Экспериментальную ИИ-модель на базе Titan научили оценивать, какие данные запомнить, с помощью метода “сюрприза”: чем неожиданнее токен для нейросети, тем выше его приоритет для сохранения. Долгосрочная память также имеет механизм затухания, позволяющий постепенно забывать устаревшие данные. При этом вся архитектура остается масштабируемой.

Google Titan обходит топовые ИИ-модели по размеру контекстного окна. Источник: arxiv.

Google испытали три варианта соединения модулей памяти. Лучшую точность продемонстрировал подход MAC, в котором долгосрочная память используется как целенаправленно отобранный контекст для внимания, а самым быстрым стал MAL — последовательная интеграция памяти в слой. В итоге Titan получился одновременно точнее и экономичнее трансформеров при работе с огромными входными данными, обеспечивая стабильную обработку контекста вплоть до двух миллионов токенов и требуя при этом заметно меньше вычислительных операций.

Выводы

Titan пока не позиционируется как окончательная замена трансформерам, но впервые за много лет появилась архитектура, которая может действительно прекратить доминирование классической модели внимания и достойно выдерживает конкуренцию в сравнении с другими альтернативными ИИ-архитектурами. Если разработка найдет широкое применение, будущее LLM может выглядеть совсем иначе — с огромными контекстами, устойчивой памятью и куда более глубоким пониманием длинных последовательностей.

Автор:

Serverflow