LLaVa-VL (Visual Instruction) смогла!
Помните эту картинку из презентации OpenAI, где они рассказывали, как научили GPT4 в мультимодальность, которая с глубиной осмысленности описала абсурдность этого кадра?
Интересен тот факт, что спустя пол года с момента презентации, они так и не выпустили обновлений для работы модели с мультимодальностями...
Ребята из Китая (Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae) выпустили обновление мультимодальной модели LLaVa-VL (Large Language and Vision Assistant) всего c 13 миллиардами параметров, которая смогла воспроизвести то, что показывали OpenAI на презентации:
На изображении мужчина стоит на автомобиле, в частности, жёлтом такси, движущемся по улице. Мужчина одет в желтую футболку, что придает сцене еще большую абсурдность. Машина едет по городской улице, вокруг нее движутся другие машины и транспорт. Мужчина стоит на машине, что необычно и потенциально опасно, так как это небезопасный и не рекомендуемый способ передвижения. Снимок фиксирует момент абсурда и подчеркивает нестандартность поведения мужчины.
но больше всего меня удивил ответ на это изображение (на нём моя супруга фотографировала моего кота, картинка точно не была в интернете и не могла попасть в обучающую выборку):
Вы и сами можетепоиграть с демо и оценить возможности работы модели. Код обучения, датасеты и веса доступны на обнимашках.
LLaVA представляет собой новую сквозную обучаемую большую мультимодальную модель, объединяющую визуальный энкодер и Vicuna для визуального и языкового понимания общего назначения, достигающую впечатляющих возможностей в режиме диалога, подобно возможностям мультимодального GPT-4, и устанавливающую новый уровень точности на Science QA.
По большому счету это объединенный визуальный энкодер CLIP ViT-L/14 и дообученная языковая модель Vicuna с помощью простой проекционной матрицы:
Сравнение производительности с GPT4:
Science QA: Новая SoTA с синергией LLaVA с GPT-4
Ещё я ранее писал за mini-GPT, мультимодальную модель, которая умеет в картинки, почитайте.
И еще одна свежая работа и модель Qwen-VL прямиком из Алибабы.