Movie Gen: Новая эра генеративного видео и аудио от Meta*
https://ai.meta.com/research/movie-gen/
Представьте себе синего эму, который плывёт по океану. Звучит дико, правда? Но человеческое воображение способно на такие фантазии. И вот теперь, команда Meta придумала нечто, что сможет воплотить такие образы в реальность — Movie Gen. Это не просто очередная разработка в мире искусственного интеллекта, а целая платформа для создания видео и аудио контента на основе текста, изображений и даже инструкций. В этой статье мы разберёмся, что такое Movie Gen и почему разработка от Meta может стать революцией в мире медиа.
Что такое Movie Gen?
Movie Gen — это набор фундаментальных моделей для генерации медиа, который способен создавать высококачественные видео в разрешении 1080p, синхронизированные с аудио (да-да, наконец-то видео и звук идут в унисон!). Модели поддерживают различные соотношения сторон видео и могут работать с персонализацией, используя изображение пользователя. И, что особенно интересно, они умеют редактировать видео по инструкциям, задаваемым текстом. Это не просто мечта для любителей визуального контента, а реальный инструмент, который устанавливает новый стандарт в генеративных технологиях.
Главные фишки Movie Gen
- Текст-видео генерация. Хотите увидеть, как ёжик в пачке танцует балет? Легко! Просто задайте текстовое описание, и Movie Gen создаст видео, которое будет выглядеть так, будто это сцена из вашего воображения.
- Персонализация видео. Представьте, что вы можете взять фотографию и создать видео, где этот человек, например, запускает фонарик в небо или проводит научный эксперимент. Movie Gen позволяет генерировать персонализированные видео, сохраняя ключевые черты лица человека.
- Редактирование видео по текстовым инструкциям. Допустим, у вас есть видео, где человек запускает фонарик. Теперь добавьте туда блестящие гирлянды или измените фон на парк у озера — это можно сделать с помощью текстовых команд. Просто напишите, что хотите изменить, и система внесёт корректировки.
- Видео-аудио генерация. Вы создаёте видео, и Movie Gen автоматически добавляет звук, будь то плеск воды или громкий удар. Звуки идеально синхронизированы с визуальными действиями, что создаёт полное ощущение присутствия.
Технические детали
Модель Movie Gen Video
Это основная модель, отвечающая за генерацию видео. Она основана на огромной модели с 30 миллиардами параметров. Для обучения использовались как изображения, так и видео с интернета, что позволяет модели понимать и воспроизводить сложные визуальные сцены: движение объектов, взаимодействие персонажей с окружением, физику, геометрию и многое другое. В отличие от других генеративных моделей, как, например, Runway Gen3 или OpenAI Sora, эта модель может генерировать видео с более высоким качеством и реалистичными движениями.
- Параметры модели:
- Модель для генерации видео содержит 30 миллиардов параметров.
- Максимальная длина контекста — 73K видео-токенов, что соответствует 16 секундам видео при 16 кадрах в секунду.
- Обучение:
- Модель обучена на интернет-масштабных данных, включая порядка 100 миллионов видео и 1 миллиард изображений.
- Для улучшения генерации видео используется супервизорная дообучка (SFT) на небольшом наборе высококачественных видео с текстовыми описаниями.
- Модель обучается на совместной задаче генерации изображений и видео, где изображения рассматриваются как одиночные кадры видео.
- Для повышения эффективности, генерация происходит в пространственно-временном сжатом латентном пространстве, обученном с помощью автоэнкодера (TAE).
- Используется обучение с Flow Matching для генерации видео и изображений (основано на работе Lipman et al., 2023).
- В качестве архитектуры используется LLaMa3 (Dubey et al., 2024).
- Инференс:
- Модель способна генерировать видео с разными соотношениями сторон (например, 1:1, 9:16, 16:9), продолжительностью от 4 до 16 секунд и разрешением 768×768 пикселей.
- Видео может быть увеличено до Full HD 1080p с помощью пространственного увеличителя разрешения (Spatial Upsampler).
- Во время инференса используется тайлинговая схема для кодирования и декодирования длинных видео (например, 1024×1024 пикселей и 256 кадров). Видео делится на тайлы по временной оси, которые затем объединяются обратно.
- Для устранения артефактов на границах тайлов используется наложение тайлов с последующим линейным смешиванием при декодировании.
- Архитектура автоэнкодера (TAE):
- TAE сжимает входное пиксельное видео с размером T0 × 3 × H0 × W0 в латентное пространство с размером T × C × H × W (где T, H, W меньше исходных значений).
- Сжатие происходит с коэффициентом 8 по всем пространственно-временным измерениям.
- TAE использует вариационный автоэнкодер (VAE) и добавляет временные параметры к пространственным свёрткам и вниманию.
- Для повышения эффективности инференса используется временная плитка (temporal tiling).
- Улучшение генерации:
- Для борьбы с артефактами, такими как "чёрные пятна" в кадрах, добавлена специальная функция потерь (Outlier Penalty Loss, OPL), которая наказывает модель за большое отклонение латентных значений от среднего.
- Целевая функция:
Модель Movie Gen Audio
Эта модель отвечает за генерацию звука и музыки. Синхронизация звука и видео — это не просто магия, а результат работы 13-миллиардной модели, которая обучалась на миллионах часов аудиоданных. Она может генерировать звуки, исходя из визуальных сцен, даже если источник звука не виден. А ещё она умеет создавать музыку, которая подчёркивает настроение и действия в кадре.
- Параметры модели:
- Обучение:
- Обучена на 1 миллионе часов аудио, что позволяет модели ассоциировать видео и звуки, включая как физические, так и психологические связи между визуальными и звуковыми событиями.
- Дополнительно дообучена на небольшом наборе данных для улучшения качества аудио в кино-стиле.
- Возможности:
Общие техники для улучшения генерации
- Flow Matching естественно обеспечивает нулевое отношение сигнал-шум (SNR) на конечных этапах генерации, что помогает улучшить качество видео по сравнению с диффузионными моделями.
- Модель использует специальный шумовой график (noise schedule) для увеличения точности предсказаний на ранних и поздних этапах генерации.
Персонализация и редактирование
Персонализация работает за счёт специального пост-тренировочного процесса, в ходе которого модель обучается на примерах изображений и видео с людьми. Таким образом, она может сохранять черты лица и другие важные детали при создании персонализированных видео. Что касается редактирования, то это вообще что-то новенькое. Ранее для обучения видео-редакторам требовалось огромное количество данных, но команда Meta нашла способ обучить модель без использования больших наборов данных, что открыло новые горизонты для простого и точного редактирования видео.
Перспективы и будущее
Movie Gen уже превосходит все существующие на рынке решения по качеству видео и аудио генерации. Но на этом разработчики не останавливаются. В планах — создание открытых бенчмарков и выпуск моделей для публичного использования, что позволит другим исследователям и разработчикам ускорить прогресс в этой области.
Сейчас мы стоим на пороге новой эры в медиа. То, что раньше казалось фантастикой, становится реальностью: от создания видео по текстовому описанию до редактирования видео по командам. И Movie Gen — это только начало. Кому-то может показаться, что это просто очередная AI-модель, но на самом деле это инструмент, который радикально изменит, как мы создаём и воспринимаем цифровой контент.
Всё это звучит как нечто невероятное, правда? Но Movie Gen — это реальность, и она уже здесь. Скоро каждый сможет создавать свои собственные видео с помощью простых текстовых запросов или редактировать уже существующие сцены, как в настоящем кино. Технологии Meta выводят генерацию медиа на новый уровень, и, похоже, это только начало большого путешествия.