Предварительное исследование OpenAI о1 в медицине: приближаемся ли мы к AI-врачу?

https://ucsc-vlaa.github.io/o1_medicine/

Большие языковые модели (LLMs) продемонстрировали впечатляющие возможности в различных областях и задачах, расширяя границы нашего понимания обучения и когнитивных процессов. Новейшая модель от OpenAI, o1, выделяется тем, что является первой LLM с внутренней техникой цепочки рассуждений (Chain-of-Thought), использующей стратегии обучения с подкреплением. Хотя эта модель показала удивительно сильные результаты в общих языковых задачах, её эффективность в специализированных сферах, таких как медицина, остаётся неизвестной.

Для этого в данном отчёте представлен предварительный анализ работы модели o1 в различных медицинских сценариях, с акцентом на три ключевых аспекта: понимание, логическое мышление и многоязычность. В рамках исследования было проведено шесть задач с использованием данных из 37 медицинских наборов данных, включая два новых и более сложных набора вопросов, основанных на профессиональных медицинских викторинах из The New England Journal of Medicine и The Lancet. Эти наборы данных обладают большей клинической значимостью по сравнению со стандартными медицинскими тестами, такими как MedQA, что делает их более актуальными для реальных клинических задач.

Анализ показал, что улучшенные способности модели o1 к рассуждению могут существенно повысить её способность понимать различные медицинские инструкции и решать сложные клинические сценарии. Примечательно, что o1 превзошла предыдущую модель GPT-4 по точности на 6,2% и 6,6% в среднем по 19 наборам данных и двум новым сложным наборам вопросов. Однако наряду с этим были выявлены несколько недостатков в возможностях модели и существующих протоколах оценки: галлюцинации, непоследовательная работа с разными языками и несоответствия в метриках оценки.

Авторы публикуют все данные и результаты модели на https://ucsc-vlaa.github.io/o1_medicine/ для дальнейших исследований.

Интеллект — сложное и до сих пор не до конца понятное явление, которое на протяжении многих лет ставило в тупик психологов, философов и компьютерных учёных. Несмотря на отсутствие единого определения термина "интеллект", общепризнано, что он охватывает широкий спектр когнитивных навыков, а не ограничивается выполнением одной конкретной задачи. Создание искусственных систем с таким общим интеллектом — это давняя и амбициозная цель исследований в сфере ИИ. В последние годы наиболее захватывающие достижения в этой области достигнуты благодаря языковым моделям, начиная с первоначального появления ChatGPT и до его эволюции, а также других открытых проектов.

Первые исследователи LLM стремились создать системы, которые могли бы понимать и взаимодействовать с человеком, исследуя обобщённые механизмы рассуждений и создавая базы знаний с огромным количеством информации, основанной на здравом смысле. С увеличением параметров моделей и объёмов данных, вопросы о том, как эффективно взаимодействовать с моделью через запросы и как её обучать, стали горячей темой для обсуждения. На стороне пользователя различные техники подачи запросов могут существенно влиять на производительность модели. Одной из самых популярных стратегий является метод цепочки рассуждений (Chain-of-Thought, CoT) (Wei и др., 2022; Dong и др., 2022; Saunders и др., 2022). Этот метод использует внутренние паттерны рассуждений модели, чтобы улучшить её способность решать сложные задачи. OpenAI пошла дальше, внедрив процесс CoT непосредственно в обучение модели, интегрировав его с методами обучения с подкреплением, и, в итоге, представила модель o1 (OpenAI, 2024).

Хотя модель o1 демонстрирует сильные результаты в общих задачах, её эффективность в специализированных областях, таких как медицина, остаётся под вопросом, поскольку она, возможно, не обучена на достаточном количестве данных этой области. Более того, современные бенчмарки для LLM в медицинской сфере зачастую оценивают модели только по ограниченному набору факторов, таких как знания и способность к рассуждению (Nori и др., 2023b; Liévin и др., 2024), безопасность (Han и др., 2024) или многоязычность (Wang и др., 2024). Это затрудняет всестороннюю оценку возможностей LLM, особенно продвинутых моделей вроде o1, в сложных медицинских задачах (см. рисунок 1).

Цель этой работы — сократить этот разрыв, сосредоточив внимание на o1. Мы выделяем три фундаментальных аспекта LLM в медицине: понимание, рассуждение и многоязычность. Для оценки этих возможностей мы собрали 35 существующих медицинских наборов данных и разработали два новых, сложных набора данных для QA (вопрос-ответ), которые включают инструкции и ожидаемые результаты, что обеспечивает более полную оценку. Наши ключевые выводы включают:

o1 демонстрирует улучшенные возможности в передаче клинических знаний и логических рассуждений, что подтверждает её компетентность в реальных диагностических сценариях (см. рисунки 1 и 2).
Ни одна модель не превосходит все задачи в нашей медицинской таблице лидеров, хотя o1 близка к доминированию в большинстве оценок.
Тем не менее, o1 всё ещё страдает от давно известной проблемы галлюцинаций и сложных многоязычных медицинских случаев.
Несоответствия в метриках оценки медицинских NLP могут существенно влиять на позиции моделей, что подчёркивает необходимость пересмотра надёжных метрик для будущих LLM.

Хотя CoT уже встроен в обучение o1, использование этого подхода в виде подсказок (prompting) может ещё больше улучшить её производительность в медицине.

Кроме того, мы дополнительно поднимаем вопросы в разделе обсуждения, стремясь решить выявленные проблемы, описанные в разделе 5. В частности, мы подчёркиваем возможные негативные последствия использования o1, акцентируем внимание на необходимости согласованных и унифицированных метрик оценки для будущих LLM, а также предлагаем улучшить шаблоны инструкций, которые можно применять к моделям с встроенными стратегиями подсказок.

1. Введение в модель o1

Исследование посвящено анализу возможностей новой языковой модели от OpenAI под названием o1, разработанной специально для медицинских задач. Эта модель — первая в своем роде, которая объединяет метод цепочки рассуждений (Chain-of-Thought, CoT) с обучением с подкреплением. Исследователи ставят цель понять, как хорошо o1 справляется с тремя ключевыми аспектами в медицине: понимание, логическое мышление и многоязычность.

2. Оценка и методология

Для оценки модели использовались 37 медицинских наборов данных, охватывающих 6 различных задач, включая две новые, созданные на основе медицинских викторин из таких авторитетных источников, как The Lancet и The New England Journal of Medicine (NEJM). Внимание уделялось следующим аспектам:

Понимание: насколько глубоко модель понимает медицинские концепции.
Рассуждение: способность модели логически выводить заключения в клинических ситуациях.
Многоязычность: оценка качества работы модели на разных языках в контексте медицинских задач.

3. Основные результаты

o1 значительно превосходит другие модели, такие как GPT-4, GPT-3.5 и специализированные медицинские модели вроде MEDITRON-70B, во многих задачах. Вот несколько цифр:

o1 показывает улучшение точности на 6,2–6,6% по сравнению с GPT-4 на 19 различных наборах данных.
Модель демонстрирует высокие способности к рассуждению, особенно в сложных диагностических задачах. Существенные улучшения наблюдаются в вопросно-ответных медицинских тестах.
В отличие от GPT-4, который иногда "фантазирует" или дает ошибочные объяснения, o1 отвечает более лаконично и точно.

4. Сильные и слабые стороны

Сильные стороны:

o1 показывает лучшую способность к переносу общих знаний и логического мышления в медицинскую сферу.
Модель точнее распознает медицинские термины, лучше отвечает на вопросы и помогает в принятии клинических решений.

Слабые стороны:

Однако, модель всё ещё страдает от проблемы галлюцинаций, особенно в сложных многоязычных случаях.
Различия в используемых метриках (например, между точностью и более сложными показателями) могут влиять на позиции модели в рейтингах, что поднимает вопрос о необходимости улучшения методологии оценки для медицинских ИИ.

5. Заключение

Исследование приходит к выводу, что o1 действительно делает нас на шаг ближе к созданию надежного ИИ-врача благодаря своим улучшенным возможностям понимания и рассуждения в медицинских задачах. Тем не менее, есть ещё над чем работать — в частности, устранить проблему галлюцинаций и улучшить работу с многоязычными случаями. Авторы подчеркивают необходимость более последовательных метрик для оценки и усовершенствованных стратегий подбора подсказок для будущих моделей.

6. Данные и результаты модели

Все исходные данные и результаты работы модели доступны для последующих исследований на этом репозитории.