September 16, 2023

Qwen-VL: Новая мультимодальная языковая модель (от Alibaba).

Новая мультимодальная языковая модель (от Alibaba) Qwen-VL.

Китайские исследователи обучили мультимодальную нейронку на основе своей же Qwen 7B, которую обучали 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab (https://github.com/camenduru/Qwen-VL-Chat-colab).

По текстовым метрикам Qwen-7b превосходит LlaMa2-13b.

▫️Qwen-VL может распознавать изображения, текст, а также генерировать подписи для них.

▫️Qwen-VL-Chat может выполнять более сложные взаимодействия, такие как сравнение нескольких изображений, написание историй, создание изображений и ответы на несколько раундов вопросов.

▫️Qwen-VL и Qwen-VL-Chat достигли высочайших результатов в вопросах и ответах.

Правда архитектурно ничего нового тут нет:


ViT-G + однослойный Q-former + LLM
Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe (https://t.me/abstractDL/187)). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.

По точности она бьёт всё, что было до неё, причём с запасом.

Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.

Colab (https://github.com/camenduru/Qwen-VL-Chat-colab)
Статья (https://arxiv.org/abs/2308.12966)
GitHub (https://github.com/QwenLM/Qwen-VL)

в заметке использовался материал с канала abstractDL.