Хакатон DeepHack.Agents. Создание ИИ ассистента для помощи в научных исследованиях

Задача хакатона:

На основании возможностей, которые предоставляют GigaChat и его SDK Gigachain, разработать собственного ИИ-ассистента, помогающего
в научной деятельности.

Подробнее:

Научные исследования могут быть очень сложными, особенно когда учёные сталкиваются с проблемами, требующими много времени и ресурсов на решение. Ассистенты, в то же время, способны решать практически любые задачи - и не только в сфере науки, но и в любой другой!

Вам необходимо определить такие проблемы и, создав Агентов GigaChain, разработать с нуля подход, дающий возможность их решения. Проблемы могут относиться к разным сферам жизни, иметь разное прикладное значение, разные требования к ресурсам. Но помните, что чем больше и сложнее проблема - тем более приятным будет факт ее решения!

Для вашего Ассистента вы можете создать одного Агента, но при желании или необходимости можно создать мультиагентную систему.

Решение:

Делали телеграм бота для помощи научным сотрудникам в R&D предметной области по базам статей в научных журналах.

Реализовали парсер над поиском PDF файлов DuckDuckGo поисковика.
Точка входа в бот была начальная фраза - предметная область исследования. Например при вводе фразы в телеграм бот "использование агентов в языковых моделях для изучения и обработки инфорамции" мы сначала переводим через гигачат фразу на английский и в промте просим указать несколько тождественных вариантов разными словами.
На выходе у нас n фраз на английском языке, которые мы передаём в DuckDuckGo, на выходе получаем список PDF файлов с разных хостов с научными статьями:

4. помимо этого использовали serpapi для получения расширенного контекста по сабжам поиска:

5. получали саммари из пдф с помощью gigachain (fork langchain for gigachat) с помощью map\reduce подходов. Парсили каждый пдф файл, далее резали текст на чанки по 1000 символов, передавали в гигачат для саммаризации и так в виде матрешки поочередно пока не останется единый саммари по всему документу. Причина: узкий контекст окна у GigaChat Pro 8096 токенов.

7. Конечный вариант приминения был использование векторной базы и помещение туда эмбеденгов всей совокупности найденного материала, чтобы можно было прямо из бота общаться.

Призы:

Мы вошли в топ5 в финал.

Получили прикольный мерч, спасибо оргам!.

Решение:

https://github.com/progressionnetwork/sci_source_assistant_bot