Основные мысли DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization

https://dmdspeech.github.io/

<кода пока нет>

1. Мотивация и проблема
Диффузионные модели уже показали высокую эффективность в задачах синтеза речи, таких как текст-в-речь (TTS) и клонирование голоса. Однако, их основной недостаток заключается в том, что процесс итеративного удаления шума довольно неэффективен, что затрудняет применение оптимизации с учетом перцепционных метрик (т.е. метрик, основанных на восприятии человеком).

2. Предложенное решение: DMDSpeech
Исследователи предлагают новый метод, который позволяет дистиллировать (упрощать) диффузионные модели для TTS с прямой оптимизацией метрик качества. Этот метод называется DMDSpeech.
Основное отличие DMDSpeech от предыдущих моделей заключается в использовании прямой оптимизации метрик, таких как ошибка распознавания слов (WER) и косинусное сходство эмбеддингов голоса для улучшения синтеза речи.

3. Ключевые технологии и особенности
Дистилляция моделей: Процесс дистилляции позволяет модели быстрее генерировать звук, сводя к минимуму количество шагов диффузии.
Оптимизация перцепционных метрик: Включает две ключевые потери:
CTC loss: Оптимизация на основе Connectionist Temporal Classification для улучшения точности распознавания слов (WER).

Speaker Verification (SV) loss: Оптимизация на основе сравнения эмбеддингов голоса для улучшения сходства голоса.
Эти подходы помогают DMDSpeech достичь лучших результатов в плане естественности речи и сходства голоса, чем предыдущие модели.

4. Основные результаты
DMDSpeech превосходит существующие SOTA-модели (State-of-the-Art) по ключевым метрикам, таким как естественность речи и сходство голоса.
Более того, синтезированная моделью речь имеет более высокое сходство с голосом, представленным в качестве примера, чем это возможно в оригинальных аудиозаписях.

Модель также значительно быстрее по сравнению с другими диффузионными моделями.

5. Экспериментальные результаты
В экспериментах показано, что DMDSpeech:
Улучшает Word Error Rate (WER), что означает более точное воспроизведение текста.

Повышает сходство голоса по сравнению с предыдущими моделями и даже оригинальной записью.
Модель тестировалась на LibriLight и LibriSpeech наборах данных, что подтверждает её способность работать с различными речевыми данными.

6. Преимущества подхода
Высокая производительность: DMDSpeech позволяет сократить количество шагов диффузии, что делает модель более быстрой и эффективной.
Более высокая точность синтеза: Благодаря прямой оптимизации метрик (WER и сходство голоса), модель лучше соответствует человеческому восприятию речи.
Синтетическая речь из DMDSpeech часто имеет более высокое сходство с голосом примера, чем оригинальные записи, что подтверждается объективными метриками и человеческими оценками.

7. Выводы
DMDSpeech вводит новый уровень в синтезе речи, предлагая не только улучшение скорости работы моделей, но и качество синтеза с точки зрения человека.

Метод прямой оптимизации метрик открывает новые возможности в TTS и клонировании голоса, позволяя моделям лучше соответствовать перцепционным предпочтениям людей.

8. Аудио примеры
Примеры синтезированных аудио и полные результаты экспериментов можно найти по ссылке: DMDSpeech Demo.

DMDSpeech демонстрирует значительные улучшения в задачах синтеза речи, предлагая новую архитектуру с использованием дистилляции диффузионных моделей и прямой оптимизации перцепционных метрик. Это делает модель быстрее и точнее по сравнению с предыдущими подходами, что особенно важно для приложений в реальном времени, таких как голосовые ассистенты и системы озвучивания.