Искусственный интеллект знакомят с реальным миром через плагины. Разбираемся с ChatGPT plugins.

До недавнего времени ChatGPT был ограничен сроком давности информации, который заканчиваются в 2021 году - моментом "среза" или датой сбора данных для датасета и обучением. Сами по себе языковые модели, такие как ChatGPT, не имеют представления о новой информации с момента среза . Так же языковые модели не умеют сами по себе обращаться к ресурсам из интернета, извлекать оттуда контент и обрабатывать его.

Теперь представьте себе мост, по которому любую нужную нейросети информацию, для более комплексного и точного ответа, подвозят и сгружают прямо в "мозг". Это и есть плагины, по сути прокси между нейросетью и реальным миром.

OpenAI выпустили обновление, которое значительно расширяет возможности чатбота и впервые дает ему доступ к актуальным данным из Интернета. По сути в OpenAI это организованно как внутренний маркетплейс, из которого можно выбрать необходимые плагины или "коннекторы" с реальным миром.

OpenAI заявили о предоставлении доступа к подключаемым модулям «небольшой группе пользователей». На текущий момент плагины доступны только по предварительной записи через waitlist и выдаются в индивидуальном порядке. Для разработчиков плагинов доступна документация.

Плагины позволят боту не только просматривать веб-страницы, но и взаимодействовать с сайтами и сервисами. Они открывают широкий спектр возможных вариантов использования. Уже сейчас присутствуют плагины для разных задач, от поиска информации по определенным ресурсам и математики до переводов. Первопроходцы уже загружают свои плагины в "маркетплейс OpenAI": Expedia, FiscalNote, Instacart, KAYAK, Klarna, Milo, OpenTable, Shopify, Slack, Speak, Wolfram, and Zapier.

Каждый плагин заточен под конкретную узкую задачу, которая задаётся с помощью текстового запроса на человеческом языке. Подключаемый плагин в OpenAI не просто извлекает информацию в режиме реального времени, а может быть привязан к API, позволяя ему «выполнять действия от имени пользователя».

OpenAI наладили сотрудничество со многими популярными проектами как Wolfram Mathematica и Wolfram Language, но также разработали свой собственный плагин для извлечения любых данных, которые вы хотите использовать в ChatGPT.

Базовые плагины:

- Browsing — поиск заданной информации в интернете, позволяет ChatGPT извлекать данные из сети, чтобы отвечать на различные заданные ему вопросы. Плагин извлекает контент из интернета с помощью API поиска Bing и показывает все веб-сайты, которые он посетил при создании ответа, со ссылкой на свои источники в ответах ChatGPT.

- Code Interpreter - Интерпретатор кода на Python.

- Optical Character Recognition — одна из библиотек в Code Interpreter. Возможность сочетать OCR с действительно мощной языковой моделью открывает некоторые интересные возможности для работы со скриншотами, сканами и любыми снимками документов и текстов.

- Retrieval — позволяет искать нужный контекст среди большой коллекции документов.

3rd party плагины:

- Instacart — спросить ChatGPT рецепт блюда и тут же заказать доставку продуктов. - Expedia — построить маршрут путешествия и забронировать номер в отеле. - Zapier — создание сценариев workflow-автоматизации на обычном языке.

Вы можете создавать свои собственные плагины, которые будут обращаться к вашим программам через API. Кроме того, можно попросить GPT-4 написать плагин для вас, например, если вы хотите добавить функциональность дешевому переводчику, просто создав API, который будет использовать Google Translate в своей работе.

В демонстрационном видео показан пример использования ChatGPT, для поиска рецепта, расчета каллорий и автоматического заказа необходимых ингредиентов через онлайн магазины продуктов. ChatGPT автоматически загружает список ингредиентов в сервис покупок и перенаправляет пользователя на сайт для выполнения заказа.

Идея плагинов состоит в том, что со временем любой вебсайт сможет добавить описание доступного для языковой модели API в специальный файл: domain.com/.well-known/ai-plugin.json, в котором заранее описывается интерфейс взаимодействия с API на естественном языке и его интерпретация.

Тем временем сообщество решило не отставать и энтузиасты уже выкатывают решения для открытых моделей. Так разработчик показал пример использования плагина ретривера с LLaMA:

"Это больше, чем просто руководство. Это призыв к действию по созданию открытого протокола для плагинов для моделей фундамента, позволяющего нам обмениваться плагинами между LLM и управлять их взаимодействием." - написал он и поделился своей разработкой.