Google Research опубликовала статью “Attention Is All You Need V2” и впервые предложила решение одной из фундаментальных проблем современных нейронных сетей — катастрофическое забывание.
Подробнее о Attention Is All You Need V2
Проблема катастрофического забывания заключается в том, что искусственный интеллект утрачивает ранее приобретенные знания, когда обучается новым. Для больших языковых моделей это критично: они не способны учиться на своем опыте, постепенно улучшаясь, а любые новые данные требуют полного переобучения, при этом всегда есть риски деградации старых навыков.
Исследователи Google предлагают принципиально новую парадигму — вложенное обучение. Если классическое обучение рассматривает модель как статичную структуру, которая оптимизируется сверху вниз единым процессом, то вложенная архитектура разделяет обучение на несколько уровней, каждый из которых работает на своей собственной временной шкале. Это приближает нейросеть к принципам работы человеческого мозга, который комбинирует быстрые циклы обработки кратковременной памяти и медленные, устойчивые контуры долговременного запоминания.
Экспериментальным подтверждением новой концепции стала новая ИИ-архитектура под названием Hope, которая должна вдохнуть новую надежду в архитектуру трансформеров. Hope показывает, что модель можно организовать так, чтобы ее внутренние системы памяти обновлялись с разной скоростью в зависимости от текущей задачи. В задачах языкового моделирования экспериментальная архитектура превосходит современные рекуррентные модели и более эффективно работает с длинным контекстом, не теряя информацию при его увеличении. Это связано с тем, что вложенные блоки памяти позволяют удерживать долгосрочные зависимости без разрушения кратковременных.
Google описывает этот механизм как аналог человеческого распределенного обучения: мозг никогда не перезаписывает все сразу, а вместо этого обновляет разные уровни памяти разными темпами. Фактически, Hope является попыткой впервые объединить архитектуру модели и процесс ее обучения так, словно они являются не независимыми компонентами, а частями единой системы оптимизации.
Выводы
Публикация Attention Is All You Need V2 может стать отправной точкой для создания нового вида искусственного интеллекта, который не только выполняет запросы, но и способен учиться постоянно, без глобальных пересборок датасета и без потери накопленного опыта. Если концепция вложенного обучения закрепится в индустрии, это станет огромным шагом вперед к новым моделям, обучающимся так же плавно и непрерывно, как человеческий мозг.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.