Moshi - языковая и диалоговая модель реального времени
Moshi — это новая модель для диалогов в реальном времени, которая понимает и говорит. Она разработана в лаборатории Kyutai-Labs и обещает изменить подход к голосовым AI.
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd
https://github.com/kyutai-labs/moshi
Moshi — это модель, которая сразу и слышит, и говорит. Она построена на двух других моделях: Helium, текстовая языковая модель, и Mimi, аудиотокенизатор. Вместо того, чтобы раздельно обрабатывать текст и речь, как это делают многие современные решения, Moshi совмещает оба эти процесса, что позволяет значительно снизить задержку — всего 200 миллисекунд! Это важно, потому что в реальном времени каждая доля секунды на вес золота.
Почему это круто? Потому что большинство аналогичных систем сначала преобразуют речь в текст, потом обрабатывают его, а затем снова превращают в речь. Это не только замедляет процесс, но и теряет нюансы живого общения. Moshi же — это единая система, которая не только понимает смысл, но и умеет вовремя отвечать, даже если вы перебиваете друг друга.
Если говорить просто, Moshi — это комбинация двух декодеров на базе трансформеров и аудиодекодера. Когда вы говорите, ваш голос превращается в токены с помощью аудиотокенизатора Mimi, который затем передает их на обработку модели. Moshi анализирует контекст вашей речи с помощью Temporal Transformer — это как мозг системы, который понимает, что вы хотите сказать. Далее Depth Transformer помогает преобразовать понимание модели в голосовой ответ.
Mimi — это ключевая часть системы. Он берет звук и разбивает его на токены. Но не просто так — аудиосигнал сначала сжимается, а потом декодируется обратно. Этот процесс называется квантованной автокодировкой, и он позволяет системе не терять важные детали вашего голоса. Mimi использует две стратегии токенизации: семантические токены (отвечают за смысл) и акустические токены (отвечают за качество звучания). Семантические токены помогают модели понять, о чем речь, а акустические — сделать голос естественным и плавным.
Одним из главных преимуществ Moshi является его способность поддерживать многопоточность. Это значит, что система может одновременно слушать вас и говорить сама, не теряя нить разговора. Представьте, что вы говорите с кем-то по телефону — вы слушаете собеседника, но иногда перебиваете или продолжаете мысль, даже если он начал говорить. Moshi справляется с такими ситуациями идеально, не требуя жестко прописанных правил для управления диалогом.
Еще один интересный аспект — это внутренний монолог. Moshi тренируется на том, чтобы моделировать текстовую версию собственного голоса. Это помогает системе лучше формулировать ответы и делать речь более выразительной.
Для обучения Moshi использовали 7 миллионов часов английской речи, транскрибированной с помощью модели Whisper. Это огромный объем данных, который позволяет системе понимать и воспроизводить речь с высокой точностью. Кроме того, для добавления многопоточности использовали Fisher Dataset, который содержит разговоры, записанные на отдельных каналах. Это помогает Moshi обрабатывать несколько потоков речи одновременно.
Moshi — это большой шаг вперед для голосовых AI-систем. Она не только умеет вести естественный диалог, но и справляется с самыми сложными аспектами общения: перебивками, паузами, параллельными потоками речи. Возможно, в будущем такие системы станут неотъемлемой частью нашей повседневной жизни, делая взаимодействие с техникой еще более плавным и комфортным.