February 28, 2023

Microsoft открывает Kosmos-1. Новая эра мультимодальных языковых моделей (MLLM).

Вслед за недавними разработками больших языковых моделей с использованием Transformers, механизма, основанного на внимании, разработанного Google в 2017 году, компания Microsoft выпустила свою исследовательскую работу под названием - Language Is Not All You Need: Согласование восприятия с языковыми моделями. Language Is Not All You Need: Aligning Perception with Language Models
https://arxiv.org/abs/2302.14045

В ней представлена мультимодальная большая языковая модель (MLLM) под названием Kosmos-1. Мультимодальность в том, что в отличие от ChatGPT, который не работает ни с чем кроме текста, на вход модель может принимать картинки и звук, и решать множество разных задач, включая image captioning, OCR-free NLP, мультимодальный диалог, visual question answering, классификацию изображений по инструкциям.

В статье говорится о важности интеграции языка, действий, мультимодального восприятия и моделирования мира для следующего шага на пути к общему искусственному интеллекту. В исследовании Kosmos-1 изучается в различных условиях, таких как zero-shot, few-shot и мультимодальная цепочка рассуждений, на нескольких задачах без тонкой настройки или обновления градиента.

Внешнее взаимодействие осталось на уровне диалога, как у ChatGPT, но теперь мы можем отправить модели не только текст, но и визуальное изображение и аудио.

Модель поймет, что изображено на картинке, которую вы ей отправите, или транскрибирует звуковую запись, которую ей отправите, проанилизирует содержимое, и ответит на поставленный вами запрос.

Исследовательская группа Microsoft также представила модель на наборе данных теста Raven IQ для анализа и диагностики способности MLLM к невербальному мышлению.

Ниже приведен пример мультимодальной подсказки цепочки рассуждений.
Это позволяет модели справляться со сложными вопросами и задачами рассуждения, генерируя обоснование решение с пояснением проблемы.

Команда считает, что переход от LLM к MLLM лучше для достижения новых способностей и возможностей для решения языковых и мультимодальных задач.