Команда исследователей DeepSeek выпустила статью “Conditional Memory via Scalable Lookup”, где была впервые представила система ENGRAM — архитектура долговременной памяти для разговорных ИИ-агентов, ориентированная на работу с длительными и многосессионными диалогами. В работе предлагается практичный и масштабируемый подход к хранению и извлечению контекста, который позволяет языковым моделям сохранять согласованность, помнить предпочтения пользователя и опираться на прошлые взаимодействия без постоянного расширения входного контекста.
Подробнее о DeepSeek ENGRAM
ENGRAM строится вокруг идеи структурированной памяти, где информация из диалогов не хранится в виде единого неупорядоченного лога. Вместо этого сообщения анализируются и распределяются по разным типам памяти в зависимости от их роли и смысла. Такой подход позволяет системе отличать факты, события и инструкции друг от друга и извлекать только действительно полезные фрагменты при генерации ответа.
Архитектура использует векторные представления и семантический поиск, что делает ее независимой от конкретной языковой модели и удобной для интеграции в существующие LLM-пайплайны и RAG-сценарии. При каждом новом запросе агент формирует компактный контекст из наиболее релевантных записей памяти, а не передает модели всю историю общения. Это снижает потребление токенов и повышает устойчивость поведения агента в длинных диалогах. Команда DeepSeek подчеркивает, что ENGRAM намеренно избегает сложных механизмов, таких как графы знаний или многоступенчатые планировщики. Вся логика работы с памятью сведена к простым и воспроизводимым операциям, что облегчает реализацию и снижает инженерные риски при промышленном использовании.
Схема работы архитектуры ENGRAM. Источник: .
Эксперименты показывают, что ENGRAM демонстрирует значительно более высокое качество на бенчмарках, ориентированных на долгосрочную память и многосессионные диалоги. На мультисессионном бенчмарке LoCoMo, где история диалога достигает порядка 600 turn-ов и около 16 тысяч токенов, ENGRAM показала 77,55% по метрике LLM-as-a-Judge, в то время как baseline с полной историей диалога набрал 72,60%. При этом ENGRAM использовала в среднем около 916 токенов контекста вместо десятков тысяч. Медианная латентность полного цикла обработки запроса составила около 1,49 секунды против 9,94 секунды у полного контекста, что означает ускорение примерно на 85%.
На более экстремальном бенчмарке LongMemEvalS, где длина истории превышает 100 тысяч токенов, ENGRAM достигла 71,40% по Judge-оценке, тогда как полный контекстный baseline показал лишь 56,20%. Объем контекста при этом составлял примерно 1-1,2 тысячи токенов, что соответствует сокращению контекстного бюджета примерно на 99% при одновременном росте качества ответов.
Результаты тестирования архитектуры ENGRAM. Источник: .
Выводы
ENGRAM демонстрирует, что эффективная долговременная память для разговорных ИИ может быть реализована без усложнения архитектуры и резкого роста вычислительных затрат. Четкое разделение информации, семантический поиск и компактный контекст позволяют агентам быть более последовательными и персонализированными. С высокой долей вероятности система ENGRAM войдет в релиз новой, передовой модели DeepSeek-V4, став частью ее диалоговой системы, сделав масштабируемость контекста ключевым фактором наряду с качеством ответов.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.