С появлением больших языковых моделей и доступа к ним для разработчиков, с каждым днем появляется всё больше способов прикладного применения для ИИ.
Не проходит и недели, чтобы что-то новое и очень крутое в области LLM не появилось в сети. На этот раз отличились сотрудники из Научно-технологического университета имени короля Абдаллы (технический исследовательский университет в Саудовской Аравии). Они предложили способ наделения языковой модели функцией мультимодальности. Их ресерч называется "Улучшение понимания языка зрения с помощью усовершенствованных больших языковых моделей" (Enhancing Vision-language Understanding with Advanced Large Language Models).