ИИ-стартап Lightricks выложил в открытый доступ исходный код своей флагманской ИИ-модели LTX-2 для генерации аудио-визуального контента. Модель с 19 миллиардами параметров способна создавать до 20 секунд видео с синхронизированным стереозвуком по одному текстовому запросу и, по заявлению разработчиков, значительно превосходит существующие решения по скорости работы. Модель уже собрала 1 миллион скачиваний на Hugging Face всего за неделю, что подтверждает ее высочайшую эффективность и признание сообщества.
Подробнее о LTX-2
LTX-2 предназначена для совместной генерации видео и звука в рамках единой архитектуры. Модель формирует не только визуальный ряд, но и синхронизированную речь, фоновые шумы, звуковые эффекты и музыку, согласованные с содержанием каждой сцены. Передовая нейросеть поддерживает разрешение до 4K при частоте до 50 FPS, а максимальная длительность одного ролика достигает 20 секунд.
В основе LTX-2 лежит асимметричная двухпотоковая трансформерная архитектура. Для генерации видео используется 14 миллиардов параметров, а для генерации аудиопотока задействуется 5 миллиардов параметров. Для каждой модальности применяются отдельные вариационные автокодировщики, а также различные схемы позиционного кодирования: трехмерные вращательные встраивания для пространственно-временной структуры видео и одномерные временные встраивания для аудио. Связь между потоками обеспечивается двунаправленными слоями механизма cross-attention, позволяющими точно сопоставлять визуальные события с соответствующими звуками.
Для обработки текстовых запросов LTX-2 использует многоязычный кодировщик на базе Gemma3-12B. В отличие от типовых решений, система задействует информацию со всех слоев декодера языковой модели, а также применяет специальные токены размышления, которые расширяют входную последовательность и позволяют более точно интерпретировать сложные запросы до начала генерации.
По данным Lightricks, LTX-2 демонстрирует существенное преимущество в производительности. При инференсе на GPU Nvidia H100 модели LTX-2 требуется около 1,22 секунды на шаг для генерации 121 кадра в разрешении 720p, тогда как сопоставимую по размеру китайская генеративная модель Wan2.2-14B, создающая только видео, тратит на это 22,30 секунды — другими словами, LTX-2 оказывается примерно в 18 раз быстрее. По максимальной длительности видео модель также опережает ряд конкурентов, включая проприетарные аналоги, вроде Veo 3 и Sora 2, а также другие открытые модели, например, Ovi от Character.AI.
Разработчики отмечают и ограничения. Качество синтеза речи зависит от представленности языка в обучающих данных, в сценах с несколькими говорящими персонажами возможны ошибки сопоставления реплик, а при генерации более длинных фрагментов может наблюдаться рассинхронизация аудио и видео.
Выводы
LTX-2 от Lightricks внесла огромный вклад в экосистему открытого генеративного ИИ, поскольку 19b-модели, способные генерировать столь длинные и качественные видеоролики, выходят очень не часто. В релиз на и вошли не только веса модели, но ряд сопутствующих решений, вроде адаптеров LoRA, модульной системы обучения с поддержкой нескольких GPU, упрощенные версии и модели, оптимизированные для большей детализации и контроля ракурса. Важно отметить, что LTX-2 оптимизирована под экосистему Nvidia RTX и может работать как на потребительских видеокартах, так и на серверных системах.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.