October 5

Movie Gen: Новая эра генеративного видео и аудио от Meta*

https://ai.meta.com/research/movie-gen/

Представьте себе синего эму, который плывёт по океану. Звучит дико, правда? Но человеческое воображение способно на такие фантазии. И вот теперь, команда Meta придумала нечто, что сможет воплотить такие образы в реальность — Movie Gen. Это не просто очередная разработка в мире искусственного интеллекта, а целая платформа для создания видео и аудио контента на основе текста, изображений и даже инструкций. В этой статье мы разберёмся, что такое Movie Gen и почему разработка от Meta может стать революцией в мире медиа.

Что такое Movie Gen?

Movie Gen — это набор фундаментальных моделей для генерации медиа, который способен создавать высококачественные видео в разрешении 1080p, синхронизированные с аудио (да-да, наконец-то видео и звук идут в унисон!). Модели поддерживают различные соотношения сторон видео и могут работать с персонализацией, используя изображение пользователя. И, что особенно интересно, они умеют редактировать видео по инструкциям, задаваемым текстом. Это не просто мечта для любителей визуального контента, а реальный инструмент, который устанавливает новый стандарт в генеративных технологиях.

Главные фишки Movie Gen

  1. Текст-видео генерация. Хотите увидеть, как ёжик в пачке танцует балет? Легко! Просто задайте текстовое описание, и Movie Gen создаст видео, которое будет выглядеть так, будто это сцена из вашего воображения.
  2. Персонализация видео. Представьте, что вы можете взять фотографию и создать видео, где этот человек, например, запускает фонарик в небо или проводит научный эксперимент. Movie Gen позволяет генерировать персонализированные видео, сохраняя ключевые черты лица человека.
  3. Редактирование видео по текстовым инструкциям. Допустим, у вас есть видео, где человек запускает фонарик. Теперь добавьте туда блестящие гирлянды или измените фон на парк у озера — это можно сделать с помощью текстовых команд. Просто напишите, что хотите изменить, и система внесёт корректировки.
  4. Видео-аудио генерация. Вы создаёте видео, и Movie Gen автоматически добавляет звук, будь то плеск воды или громкий удар. Звуки идеально синхронизированы с визуальными действиями, что создаёт полное ощущение присутствия.

Технические детали

Модель Movie Gen Video

Это основная модель, отвечающая за генерацию видео. Она основана на огромной модели с 30 миллиардами параметров. Для обучения использовались как изображения, так и видео с интернета, что позволяет модели понимать и воспроизводить сложные визуальные сцены: движение объектов, взаимодействие персонажей с окружением, физику, геометрию и многое другое. В отличие от других генеративных моделей, как, например, Runway Gen3 или OpenAI Sora, эта модель может генерировать видео с более высоким качеством и реалистичными движениями.

  1. Параметры модели:
    • Модель для генерации видео содержит 30 миллиардов параметров.
    • Максимальная длина контекста — 73K видео-токенов, что соответствует 16 секундам видео при 16 кадрах в секунду.
  2. Обучение:
    • Модель обучена на интернет-масштабных данных, включая порядка 100 миллионов видео и 1 миллиард изображений.
    • Для улучшения генерации видео используется супервизорная дообучка (SFT) на небольшом наборе высококачественных видео с текстовыми описаниями.
    • Модель обучается на совместной задаче генерации изображений и видео, где изображения рассматриваются как одиночные кадры видео.
    • Для повышения эффективности, генерация происходит в пространственно-временном сжатом латентном пространстве, обученном с помощью автоэнкодера (TAE).
    • Используется обучение с Flow Matching для генерации видео и изображений (основано на работе Lipman et al., 2023).
    • В качестве архитектуры используется LLaMa3 (Dubey et al., 2024).
  3. Инференс:
    • Модель способна генерировать видео с разными соотношениями сторон (например, 1:1, 9:16, 16:9), продолжительностью от 4 до 16 секунд и разрешением 768×768 пикселей.
    • Видео может быть увеличено до Full HD 1080p с помощью пространственного увеличителя разрешения (Spatial Upsampler).
    • Во время инференса используется тайлинговая схема для кодирования и декодирования длинных видео (например, 1024×1024 пикселей и 256 кадров). Видео делится на тайлы по временной оси, которые затем объединяются обратно.
    • Для устранения артефактов на границах тайлов используется наложение тайлов с последующим линейным смешиванием при декодировании.
  4. Архитектура автоэнкодера (TAE):
    • TAE сжимает входное пиксельное видео с размером T0 × 3 × H0 × W0 в латентное пространство с размером T × C × H × W (где T, H, W меньше исходных значений).
    • Сжатие происходит с коэффициентом 8 по всем пространственно-временным измерениям.
    • TAE использует вариационный автоэнкодер (VAE) и добавляет временные параметры к пространственным свёрткам и вниманию.
    • Для повышения эффективности инференса используется временная плитка (temporal tiling).
  5. Улучшение генерации:
    • Для борьбы с артефактами, такими как "чёрные пятна" в кадрах, добавлена специальная функция потерь (Outlier Penalty Loss, OPL), которая наказывает модель за большое отклонение латентных значений от среднего.
  6. Целевая функция:
    • Модель обучается предсказывать скорость изменения (velocity) латентного представления (вектор скорости предсказывается на основе интерполированных значений между шумовыми и реальными видео-кадрами).
    • Используется метод Эйлера первого порядка для решения уравнений при инференсе.

Модель Movie Gen Audio

Эта модель отвечает за генерацию звука и музыки. Синхронизация звука и видео — это не просто магия, а результат работы 13-миллиардной модели, которая обучалась на миллионах часов аудиоданных. Она может генерировать звуки, исходя из визуальных сцен, даже если источник звука не виден. А ещё она умеет создавать музыку, которая подчёркивает настроение и действия в кадре.

  1. Параметры модели:
    • Модель для генерации аудио содержит 13 миллиардов параметров.
  2. Обучение:
    • Обучена на 1 миллионе часов аудио, что позволяет модели ассоциировать видео и звуки, включая как физические, так и психологические связи между визуальными и звуковыми событиями.
    • Дополнительно дообучена на небольшом наборе данных для улучшения качества аудио в кино-стиле.
  3. Возможности:
    • Генерирует аудио с частотой 48 кГц, включая звуковые эффекты и музыку, синхронизированные с видео.
    • Поддерживает генерацию звука для длинных видео с помощью техник продления аудио (audio extension techniques).

Общие техники для улучшения генерации

  • Flow Matching естественно обеспечивает нулевое отношение сигнал-шум (SNR) на конечных этапах генерации, что помогает улучшить качество видео по сравнению с диффузионными моделями.
  • Модель использует специальный шумовой график (noise schedule) для увеличения точности предсказаний на ранних и поздних этапах генерации.

Персонализация и редактирование

Персонализация работает за счёт специального пост-тренировочного процесса, в ходе которого модель обучается на примерах изображений и видео с людьми. Таким образом, она может сохранять черты лица и другие важные детали при создании персонализированных видео. Что касается редактирования, то это вообще что-то новенькое. Ранее для обучения видео-редакторам требовалось огромное количество данных, но команда Meta нашла способ обучить модель без использования больших наборов данных, что открыло новые горизонты для простого и точного редактирования видео.

Перспективы и будущее

Movie Gen уже превосходит все существующие на рынке решения по качеству видео и аудио генерации. Но на этом разработчики не останавливаются. В планах — создание открытых бенчмарков и выпуск моделей для публичного использования, что позволит другим исследователям и разработчикам ускорить прогресс в этой области.

Сейчас мы стоим на пороге новой эры в медиа. То, что раньше казалось фантастикой, становится реальностью: от создания видео по текстовому описанию до редактирования видео по командам. И Movie Gen — это только начало. Кому-то может показаться, что это просто очередная AI-модель, но на самом деле это инструмент, который радикально изменит, как мы создаём и воспринимаем цифровой контент.

Всё это звучит как нечто невероятное, правда? Но Movie Gen — это реальность, и она уже здесь. Скоро каждый сможет создавать свои собственные видео с помощью простых текстовых запросов или редактировать уже существующие сцены, как в настоящем кино. Технологии Meta выводят генерацию медиа на новый уровень, и, похоже, это только начало большого путешествия.

*-meta, запрещённая на территории РФ организация.