Top.Mail.Ru
Lightricks LTX-2 — открытая text-to-video модель на уровне топовых ИИ-генераторов | Новости ServerFlow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Lightricks LTX-2: открытая text-to-video модель на уровне топовых ИИ-генераторов

~ 2 мин
508
Простой
Новости
Lightricks LTX-2: открытая text-to-video модель на уровне топовых ИИ-генераторов

Введение

ИИ-стартап Lightricks выложил в открытый доступ исходный код своей флагманской ИИ-модели LTX-2 для генерации аудио-визуального контента. Модель с 19 миллиардами параметров способна  создавать до 20 секунд видео с синхронизированным стереозвуком по одному текстовому запросу и, по заявлению разработчиков, значительно превосходит существующие решения по скорости работы. Модель уже собрала 1 миллион скачиваний на Hugging Face всего за неделю, что подтверждает ее высочайшую эффективность и признание сообщества.

Подробнее о LTX-2

LTX-2 предназначена для совместной генерации видео и звука в рамках единой архитектуры. Модель формирует не только визуальный ряд, но и синхронизированную речь, фоновые шумы, звуковые эффекты и музыку, согласованные с содержанием каждой сцены. Передовая нейросеть поддерживает разрешение до 4K при частоте до 50 FPS, а максимальная длительность одного ролика достигает 20 секунд.

В основе LTX-2 лежит асимметричная двухпотоковая трансформерная архитектура. Для генерации видео используется 14 миллиардов параметров, а для генерации аудиопотока задействуется 5 миллиардов параметров. Для каждой модальности применяются отдельные вариационные автокодировщики, а также различные схемы позиционного кодирования: трехмерные вращательные встраивания для пространственно-временной структуры видео и одномерные временные встраивания для аудио. Связь между потоками обеспечивается двунаправленными слоями механизма cross-attention, позволяющими точно сопоставлять визуальные события с соответствующими звуками.

Для обработки текстовых запросов LTX-2 использует многоязычный кодировщик на базе Gemma3-12B. В отличие от типовых решений, система задействует информацию со всех слоев декодера языковой модели, а также применяет специальные токены размышления, которые расширяют входную последовательность и позволяют более точно интерпретировать сложные запросы до начала генерации.

По данным Lightricks, LTX-2 демонстрирует существенное преимущество в производительности. При инференсе на GPU Nvidia H100 модели LTX-2 требуется около 1,22 секунды на шаг для генерации 121 кадра в разрешении 720p, тогда как сопоставимую по размеру китайская генеративная модель Wan2.2-14B, создающая только видео, тратит на это 22,30 секунды — другими словами, LTX-2 оказывается примерно в 18 раз быстрее. По максимальной длительности видео модель также опережает ряд конкурентов, включая проприетарные аналоги, вроде Veo 3 и Sora 2, а также другие открытые модели, например, Ovi от Character.AI.

Разработчики отмечают и ограничения. Качество синтеза речи зависит от представленности языка в обучающих данных, в сценах с несколькими говорящими персонажами возможны ошибки сопоставления реплик, а при генерации более длинных фрагментов может наблюдаться рассинхронизация аудио и видео.

Выводы

LTX-2 от Lightricks внесла огромный вклад в экосистему открытого генеративного ИИ, поскольку 19b-модели, способные генерировать столь длинные и качественные видеоролики, выходят очень не часто. В релиз на GitHub и Hugging Face вошли не только веса модели, но ряд сопутствующих решений, вроде адаптеров LoRA, модульной системы обучения с поддержкой нескольких GPU, упрощенные версии и модели, оптимизированные для большей детализации и контроля ракурса. Важно отметить, что LTX-2 оптимизирована под экосистему Nvidia RTX и может работать как на потребительских видеокартах, так и на серверных системах.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)