LLaVa-VL (Visual Instruction) смогла!

Помните эту картинку из презентации OpenAI, где они рассказывали, как научили GPT4 в мультимодальность, которая с глубиной осмысленности описала абсурдность этого кадра?

Интересен тот факт, что спустя пол года с момента презентации, они так и не выпустили обновлений для работы модели с мультимодальностями...

Ребята из Китая (Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae) выпустили обновление мультимодальной модели LLaVa-VL (Large Language and Vision Assistant) ~~всего~~ c 13 миллиардами параметров, которая смогла воспроизвести то, что показывали OpenAI на презентации:

На изображении мужчина стоит на автомобиле, в частности, жёлтом такси, движущемся по улице. Мужчина одет в желтую футболку, что придает сцене еще большую абсурдность. Машина едет по городской улице, вокруг нее движутся другие машины и транспорт. Мужчина стоит на машине, что необычно и потенциально опасно, так как это небезопасный и не рекомендуемый способ передвижения. Снимок фиксирует момент абсурда и подчеркивает нестандартность поведения мужчины.

ну почти :)

запускаем карандаш в космос!

модель умеет в абстрактное понимание изображения и в глубину

модель умеет еще и в распознавание кастомных шрифтов и в OCR в целом :)

А это изображение вообще далеко не каждый человек свяжет с пчелой (в силу ограниченности абстрактности визуального восприятия), а модель смогла :)

но больше всего меня удивил ответ на это изображение (на нём моя супруга фотографировала моего кота, картинка точно не была в интернете и не могла попасть в обучающую выборку):

вау же!!!!

Вы и сами можетепоиграть с демо и оценить возможности работы модели. Код обучения, датасеты и веса доступны на обнимашках.

LLaVA представляет собой новую сквозную обучаемую большую мультимодальную модель, объединяющую визуальный энкодер и Vicuna для визуального и языкового понимания общего назначения, достигающую впечатляющих возможностей в режиме диалога, подобно возможностям мультимодального GPT-4, и устанавливающую новый уровень точности на Science QA.

По большому счету это объединенный визуальный энкодер CLIP ViT-L/14 и дообученная языковая модель Vicuna с помощью простой проекционной матрицы:

Сравнение производительности с GPT4:

Science QA: Новая SoTA с синергией LLaVA с GPT-4

Ещё я ранее писал за mini-GPT, мультимодальную модель, которая умеет в картинки, почитайте.

И еще одна свежая работа и модель Qwen-VL прямиком из Алибабы.