October 20

Рассуждения о дизайне моделей синтеза речи от Николая Шмырёва (вольный перевод)

https://alphacephei.com/nsh/2024/10/18/tts-design.html

В посте "TTS Design Thoughts", автор Николай Шмырёв делится мыслями о текущем состоянии разработки систем синтеза речи (TTS) и результатами исследований за последний год.

1. Многообразие TTS-систем и их недостатки

  • В современном мире существует множество TTS-систем, но их сильные и слабые стороны до сих пор недостаточно изучены. Например, популярная система MeloTTS основана на VITS с минимальными изменениями, и унаследовала все её недостатки: слабая глобальная интонация, отсутствие эмоций, непонимание текста.
  • Новые аудио-LLM появляются каждую неделю, но часто не упоминают важные метрики, такие как WER (Word Error Rate), которая в потоковых системах обычно в 2 раза хуже, чем у оффлайн-систем.

2. F5-TTS и его ограничения

  • Недавно нашумевшая система F5-TTS получила положительные отзывы, однако она имеет свои ограничения. Например, она использует Vocos, который плохо справляется с метриками UTMOS и F0-корреляцией, а также не подходит для многоязычного синтеза речи без дополнительной настройки.
  • F5-TTS также использует мел-спектрограммы в качестве входных данных, что делает систему слабой для сложных звуков, таких как фрикативы и щелчки.

3. Проблемы с обучением трансформеров

  • Простые трансформеры, даже обученные на 200 тысячах часов данных, не способны эффективно обучаться семантике. Они могут "проглатывать" слоги и испытывают трудности с сложными текстами, такими как повторение чисел. Важные аспекты, такие как паузы и управление произношением, часто игнорируются.

4. Разные цели требуют разных систем

  • Для различных задач (например, чтение книг, интерактивные системы на устройстве, эмоциональные чат-боты, пение) нужны разные подходы к разработке TTS. Универсальная система пока недостижима, и разные цели требуют разных решений.
  • Простой TTS, такой как VITS, MatchaTTS, или StyleTTS2, хорошо работает для простого монотонного текста, но плохо справляется с эмоциональной речью.

5. Модульность и конец эпохи end-to-end систем

  • В условиях ограниченных вычислительных ресурсов важность модульного подхода возрастает. Спроектировать end-to-end систему, которая может конкурировать по качеству с модульными подходами, становится сложнее. Необходимость использования предварительно обученных компонентов, таких как сети для идентификации спикеров или вокодеры, становится всё более актуальной.
  • Мел-спектрограммы, которые используются во многих современных системах, возможно, недостаточно хороши, и альтернативы, такие как многоуровневые признаки, могут предложить более качественные решения.

6. Проблемы с обучением на "грязных" данных

  • Одной из недооценённых проблем современных TTS-систем является работа с "грязными" данными. Некоторые методы, такие как монотонное выравнивание, способны справляться с несогласованностями в данных, но полное понимание этого процесса пока отсутствует.

7. Надежность традиционных подходов

  • В некоторых случаях старые методы, такие как Kaldi ASR, оказываются более надёжными для малоизученных языков, чем современные системы, основанные на LLM. Например, простая TDNN-система может быть лучше адаптирована для определённых задач.

Пока не существует одного универсального решения для всех задач синтеза речи. Разные цели требуют разных подходов, и модульные системы с использованием предварительно обученных компонентов становятся всё более важными.