Команды SII-GAIR и Sand.ai выпустили daVinci-MagiHuman — открытую мультимодальную модель с 15 миллиардами параметров, построенную на архитектуре однопоточного трансформера. Она одновременно генерирует видео с липсинком и синхронное аудио, создавая пятисекундный ролик в разрешении 256p всего за две секунды на одном ИИ-ускорителе H100 80 ГБ. Весь стек доступен под лицензией Apache 2.0: на GitHub и Hugging Face опубликованы базовая модель, дистиллированная версия, модуль сверхразрешения. Такая широкая доступность — редкость для моделей подобного уровня, тогда как большинство конкурентов (Veo 3, Sora 2, Kling 3.0) остаются закрытыми. Среди доступных аналогов, таких как Ovi и LTX‑2, daVinci‑MagiHuman демонстрирует наилучшее качество видео и самую низкую долю ошибок при распознавании сгенерированной речи: показатель WER составляет 14,60% против 40,45% у Ovi 1.1, что говорит о значительно более четкой и разборчивой речи в итоговом видео.
Подробнее о daVinci-MagiHuman
В основе модели лежит унифицированный 40-слойный трансформер с 15 миллиардами параметров, который обрабатывает текст, видео и аудио в единой последовательности токенов, используя только механизм внутреннего внимания — без перекрестного внимания и многопоточной сложности. Архитектура использует сэндвич-конфигурацию: в первых и последних четырех слоях применяются проекции, специфичные для каждой модальности, а средние 32 слоя имеют общие параметры. Модель не опирается на явные временные метки — состояние шумоподавления определяется непосредственно по входным скрытым данным. Для стабильности обучения на каждой головке внимания установлены обучаемые скалярные гейты с сигмоидальной активацией, а унифицированный интерфейс кондиционирования позволяет обрабатывать сигналы шумоподавления и эталонные данные без выделенных ветвей преобразования.
Пайплайн и архитектура одного блока трансформера ИИ-модели daVinci‑MagiHuman. Источник: .
Модель ориентирована на высокое качество генерации человеческих персонажей: она обеспечивает выразительную мимику, естественную координацию речи и движений, точную синхронизацию аудио и видео, а также поддерживает несколько языков — китайский (путунхуа и кантонский), английский, японский, корейский, немецкий и французский. Скорость инференса для пятисекундного видео на GPU H100 составляет две секунды при разрешении 256p, восемь секунд для 540p и 38,4 секунды для 1080p. Высокая производительность достигается за счет двухэтапного сверхразрешения в латентном пространстве (что позволяет избежать лишнего цикла кодирования и декодирования VAE), использования облегченного турбо-декодера VAE, а также полной компиляции графа с помощью MagiCompiler, объединяющего операторы внутри слоев трансформера и дающего прирост скорости около 20%. Дистилляция по методу DMD‑2 позволяет выполнять генерацию всего за восемь шагов шумоподавления без использования CFG, сохраняя при этом высокое качество.
В количественных оценках daVinci‑MagiHuman превосходит открытые аналоги. По результатам парного сравнения модель оказалась предпочтительнее Ovi 1.1 в 80,0% случаев и LTX 2.3 — в 60,9% случаев. По визуальному качеству модель набрала 4,80 против 4,76 у LTX 2.3, по выравниванию текста — 4,18 против 4,12, а по физической согласованности — 4,52 против 4,56. Однако ключевое преимущество — в разборчивости речи: показатель WER у daVinci‑MagiHuman составляет 14,60%, что почти втрое ниже, чем у Ovi 1.1, и заметно ниже, чем 19,23% у LTX 2.3.
Выводы
daVinci‑MagiHuman представляет собой полностью открытое решение, сочетающее передовую архитектуру однопоточного трансформера с впечатляющей скоростью генерации и высоким качеством синхронизированного видео и аудио. Благодаря продуманным методам оптимизации — сверхразрешению в латентном пространстве, турбо-декодеру VAE, компиляции графа и дистилляции — модель достигает высокой эффективности на одном GPU H100. Открытый стек под лицензией Apache 2.0, включающий базовую и дистиллированную версии, а также полный код для инференса, дает сообществу мощный инструмент для дальнейших исследований и практического применения в области генерации реалистичных человеческих персонажей.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.