September 23

Moshi - языковая и диалоговая модель реального времени

Moshi — это новая модель для диалогов в реальном времени, которая понимает и говорит. Она разработана в лаборатории Kyutai-Labs и обещает изменить подход к голосовым AI.

https://kyutai.org/

https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

https://github.com/kyutai-labs/moshi

https://moshi.chat/

Что такое Moshi?


Moshi — это модель, которая сразу и слышит, и говорит. Она построена на двух других моделях: Helium, текстовая языковая модель, и Mimi, аудиотокенизатор. Вместо того, чтобы раздельно обрабатывать текст и речь, как это делают многие современные решения, Moshi совмещает оба эти процесса, что позволяет значительно снизить задержку — всего 200 миллисекунд! Это важно, потому что в реальном времени каждая доля секунды на вес золота.

Почему это круто? Потому что большинство аналогичных систем сначала преобразуют речь в текст, потом обрабатывают его, а затем снова превращают в речь. Это не только замедляет процесс, но и теряет нюансы живого общения. Moshi же — это единая система, которая не только понимает смысл, но и умеет вовремя отвечать, даже если вы перебиваете друг друга.

Как это работает?


Если говорить просто, Moshi — это комбинация двух декодеров на базе трансформеров и аудиодекодера. Когда вы говорите, ваш голос превращается в токены с помощью аудиотокенизатора Mimi, который затем передает их на обработку модели. Moshi анализирует контекст вашей речи с помощью Temporal Transformer — это как мозг системы, который понимает, что вы хотите сказать. Далее Depth Transformer помогает преобразовать понимание модели в голосовой ответ.

Mimi — аудиотокенизатор


Mimi — это ключевая часть системы. Он берет звук и разбивает его на токены. Но не просто так — аудиосигнал сначала сжимается, а потом декодируется обратно. Этот процесс называется квантованной автокодировкой, и он позволяет системе не терять важные детали вашего голоса. Mimi использует две стратегии токенизации: семантические токены (отвечают за смысл) и акустические токены (отвечают за качество звучания). Семантические токены помогают модели понять, о чем речь, а акустические — сделать голос естественным и плавным.

Преимущества Moshi


Одним из главных преимуществ Moshi является его способность поддерживать многопоточность. Это значит, что система может одновременно слушать вас и говорить сама, не теряя нить разговора. Представьте, что вы говорите с кем-то по телефону — вы слушаете собеседника, но иногда перебиваете или продолжаете мысль, даже если он начал говорить. Moshi справляется с такими ситуациями идеально, не требуя жестко прописанных правил для управления диалогом.

Еще один интересный аспект — это внутренний монолог. Moshi тренируется на том, чтобы моделировать текстовую версию собственного голоса. Это помогает системе лучше формулировать ответы и делать речь более выразительной.

Обучение и данные


Для обучения Moshi использовали 7 миллионов часов английской речи, транскрибированной с помощью модели Whisper. Это огромный объем данных, который позволяет системе понимать и воспроизводить речь с высокой точностью. Кроме того, для добавления многопоточности использовали Fisher Dataset, который содержит разговоры, записанные на отдельных каналах. Это помогает Moshi обрабатывать несколько потоков речи одновременно.

Что это значит для будущего?


Moshi — это большой шаг вперед для голосовых AI-систем. Она не только умеет вести естественный диалог, но и справляется с самыми сложными аспектами общения: перебивками, паузами, параллельными потоками речи. Возможно, в будущем такие системы станут неотъемлемой частью нашей повседневной жизни, делая взаимодействие с техникой еще более плавным и комфортным.