Voicecover.ai - сервис для автоматического перевода видео с синтезом речи и переносом голоса автора

Это же круто! подумали мы, и хотели бежать смотреть англоязычные ролики в русском переводе. Но оказалось, что без установленного браузера от Яндекс, это сделать не получится.

Тогда же пришла идея, сделать свою технологию закадрового перевода русскоязычных роликов на английский. В таком случае любой видео блогер сможет быстро и легко адаптировать свой русскоязычный контент для англоязычной аудитории без лишних усилий, увеличить количество подписчиков, охват и монетизацию. Более того, мы убеждены, что большое количество русскоязычного контента было бы реально интересно англоязычной аудитории, если бы не языковой барьер!

Технические нюансы:

Перевод, который выполняет Voicecover, получается закадровым и двухголосым. Мужские голоса переводятся мужским голосом, женские — женским. Оригинальная звуковая дорожка приглушается так, чтобы она была слышна, но не мешала восприятию, и накладывается на переведенную.

Бот умеет переводить закадровую речь в двух направлениях: с русского на английский и с английского на русский. Технически это выглядит как набор обработчиков и нейронных сетей, каждая из которых выполняет свою функцию.

Первым делом мы извлекаем с видео аудиодорожку и применяем к ней Speech Enhancement для удаления шумов и VAD (Voice activity detector) для определения начала и конца отрезков фраз. Далее мы распознаем и извлекаем текст с помощью VOSK, восстанавливаем знаки пунктуации, определяем границы предложений и привязываем к временным меткам информацию о поле говорящего, скорости, интонации и ударениях.

Переводим текст, и синтезируем в речь на выбранном языке с учетом пола, интонации, скорости и ударений. Отдельная нейросеть отвечает за синхронизацию оригинальной и переведенной речи, чтобы она выглядела органично. За синтез отвечает модель перевода текста в речь Rhasspy Larynx.

Что дальше?

Текущая реализация является далеко не идеальной, есть возможности для улучшения качества распознавания речи, перевода и синтеза, чем мы обязательно займемся.

В планах так же добавить клонирование голоса оригинального спикера и транслировать его на синтезированный перевод, субтитры и другие крутые фичи. Стоит отметить тот факт, что на всех этапах обработки, мы не используем сторонних сервисов. Весь процесс происходит на нашем сервере локально.

Концептуально веб сервис будет выглядеть так:

Синхронизация кадров:

В русском языке предложения гораздо длиннее чем на английском языке. Пример:

767 символов на английском и 1610 символов на русском языке.

Процесс использовнания сервиса выглядит крайне простым: выбираете желаемую громкость оригинальной звуковой дорожки, направление перевода и добавив ссылку на видео в Youtube или загрузив в виде файла, и нажимаете Перевести.

Результатом работы будет переведенный видео ролик, а также переведенное название и описание. Вам остаётся только скачать и залить видео на ваш канал.

Когда ждать релиза?

На самом деле мы будем очень признательны за ваш фидбек. Если это кому-то интересно и нужно, мы сделаем всё возможное, чтобы максимально быстро запустить сервис в работу.

Всем спасибо за внимание: )