Qwen-VL: Новая мультимодальная языковая модель (от Alibaba).
Новая мультимодальная языковая модель (от Alibaba) Qwen-VL.
Китайские исследователи обучили мультимодальную нейронку на основе своей же Qwen 7B, которую обучали 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab (https://github.com/camenduru/Qwen-VL-Chat-colab).
По текстовым метрикам Qwen-7b превосходит LlaMa2-13b.
▫️Qwen-VL может распознавать изображения, текст, а также генерировать подписи для них.
▫️Qwen-VL-Chat может выполнять более сложные взаимодействия, такие как сравнение нескольких изображений, написание историй, создание изображений и ответы на несколько раундов вопросов.
▫️Qwen-VL и Qwen-VL-Chat достигли высочайших результатов в вопросах и ответах.
Правда архитектурно ничего нового тут нет:
ViT-G + однослойный Q-former + LLM
Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe (https://t.me/abstractDL/187)). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.
По точности она бьёт всё, что было до неё, причём с запасом.
Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.
Colab (https://github.com/camenduru/Qwen-VL-Chat-colab)
Статья (https://arxiv.org/abs/2308.12966)
GitHub (https://github.com/QwenLM/Qwen-VL)
в заметке использовался материал с канала abstractDL.