December 1

Предварительное исследование O1 в медицине: приближаемся ли мы к врачу-ИИ?

https://arxiv.org/abs/2409.15277

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

Аннотация

Большие языковые модели (LLM) продемонстрировали замечательные возможности в различных областях и задачах, расширяя границы наших знаний в обучении и познании. Последняя модель OpenAI, o1, выделяется как первая LLM с интернализованной техникой цепочки рассуждений, использующей стратегии обучения с подкреплением. Хотя она продемонстрировала удивительно сильные возможности в различных задачах общего языка, ее производительность в специализированных областях, таких как медицина, остается неизвестной. С этой целью данный отчет представляет предварительное исследование o1 в различных медицинских сценариях, всесторонне исследуя 3 ключевых аспекта: понимание, рассуждение и многоязычность. В частности, наша оценка охватывает 6 задач, используя данные из 37 медицинских наборов данных, включая две недавно созданные и более сложные задачи вопросов и ответов (QA), основанные на профессиональных медицинских викторинах из New England Journal of Medicine и The Lancet. Эти наборы данных предлагают большую клиническую релевантность по сравнению со стандартными медицинскими QA-бенчмарками, такими как MedQA, более эффективно переводя их в реальную клиническую пользу. Наш анализ o1 предполагает, что улучшенная способность LLM к рассуждению может (значительно) улучшить их способность понимать различные медицинские инструкции и рассуждать в сложных клинических сценариях. Примечательно, что o1 превосходит предыдущий GPT-4 по точности в среднем на 6,2% и 6,6% по 19 наборам данных и двум недавно созданным сложным QA-сценариям. Но в то же время мы также выявляем несколько недостатков как в возможностях модели, так и в существующих протоколах оценки, включая галлюцинации, непоследовательную многоязычную способность и несоответствующие метрики для оценки. Мы публикуем наши исходные данные и выходные данные модели на https://ucsc-vlaa.github.io/o1_medicine/ для будущих исследований.

1. Введение

Интеллект, сложное и неуловимое понятие, годами озадачивало психологов, философов и ученых-компьютерщиков (Bubeck et al., 2023). Хотя нет единого общепринятого определения интеллекта, широко признано, что он охватывает широкий спектр когнитивных навыков, а не ограничивается конкретной задачей (McCarthy et al., 1955). Создание искусственных систем с таким общим интеллектом было давней и амбициозной целью исследований ИИ. Самые захватывающие успехи в ИИ достигнуты языковыми моделями в последние годы, от первоначального запуска ChatGPT до его эволюции и других проектов с открытым исходным кодом (Touvron et al., 2023a;b; Jiang et al., 2023; Bai et al., 2023; Peng et al., 2024).

Ранние пионеры LLM поставили перед собой цели понять человека и взаимодействовать с ним, исследуя обобщаемые механизмы рассуждений и создавая базы знаний с огромным количеством информации здравого смысла. С учетом параметров и объема данных вопрос о том, как эффективно подсказывать модель со стороны пользователя и обучать ее со стороны разработчика, стал актуальной темой исследования (Wei et al., 2022; Ouyang et al., 2022). Со стороны пользователя различные методы подсказок могут существенно влиять на производительность модели. Подсказка «цепочка рассуждений» (CoT) (Wei et al., 2022; Dong et al., 2022; Saunders et al., 2022), одна из самых популярных стратегий, использует внутренние модели рассуждений модели для повышения ее способности решать сложные задачи. OpenAI воспользовалась этим, встроив процесс CoT в обучение модели, интегрировав обучение с подкреплением и, наконец, представив модель o1 (OpenAI, 2024). Хотя модель o1 демонстрирует высокую производительность в общих областях, ее эффективность в специализированных областях, таких как медицина, где может отсутствовать обучение, специфичное для предметной области, остается неопределенной. Более того, текущие бенчмарки для LLM в медицинской области часто оценивают модели только по ограниченному набору факторов, часто фокусируясь на отдельных аспектах, таких как знания и рассуждения (Nori et al., 2023b; Lievin et al., 2024), безопасность (Han et al., 2024) или многоязычность (Wang et al., 2024). Эти факторы затрудняют комплексную оценку возможностей LLM, особенно для таких продвинутых моделей, как o1, в сложных медицинских задачах (Рисунок 1).

Эта статья направлена на то, чтобы сделать первый шаг к устранению этого пробела, сосредоточившись на o1. Мы выделяем три фундаментальных аспекта LLM в медицине: понимание, рассуждение и многоязычность. Чтобы оценить эти возможности, мы собрали 35 существующих медицинских наборов данных и разработали два новых сложных набора данных для вопросов и ответов, которые включают инструкции и ожидаемые результаты, обеспечивая комплексную оценку. Благодаря оценке по этому обширному набору наши ключевые выводы включают:

  • o1 демонстрирует улучшенную передачу клинического понимания и способности к рассуждению, подтверждая свою компетентность в реальных диагностических сценариях по сравнению как с закрытыми, так и с открытыми моделями, как показано на Рисунке 1 и Рисунке 2;
  • Ни одна модель не превосходит все задачи в нашем медицинском рейтинге, хотя o1 близка к доминированию в большинстве оценок;
  • o1 все еще страдает от давней проблемы галлюцинаций и сложных многоязычных медицинских случаев;
  • Несоответствия в метриках для медицинской обработки естественного языка могут существенно повлиять на положение моделей, что требует переоценки надежных метрик для будущих LLM;
  • CoT-подсказки могут дополнительно улучшить o1 в медицине, несмотря на то, что ее обучение уже интегрировало данные CoT.

В дополнение к этим выводам мы также поднимаем раздел обсуждения в качестве первоначальной попытки решения проблем, выявленных во время нашего бенчмаркинга в Разделе 5. В частности, мы выделяем потенциальные негативные последствия o1, подчеркиваем острую необходимость в согласованных и унифицированных метриках оценки для будущих LLM и выступаем за улучшенные шаблоны инструкций, которые можно применять к моделям со встроенными стратегиями подсказок.

2. Связанные работы

Большие языковые модели с улучшенной способностью к рассуждению. Большие языковые модели (LLM), основанные на предварительном обучении предсказанию следующего токена (Touvron et al., 2023a;b; Achiam et al., 2023), продемонстрировали многообещающие возможности в различных задачах понимания языка. Точная настройка инструкций еще больше улучшила способности этих LLM следовать инструкциям пользователя. Однако недавние исследования показывают, что LLM испытывают трудности со сложными задачами, включающими логические рассуждения. Чтобы решить эту проблему, некоторые исследования предлагают инструктировать LLM имитировать процессы человеческого мышления, создавая цепочку мыслей (CoT) (Feng et al., 2024; Wei et al., 2022) перед генерацией окончательного ответа. Обучение с подкреплением на основе обратной связи от человека (Ouyang et al., 2022) также использовалось для улучшения рассуждений, одновременно гарантируя, что модели соответствуют человеческим ценностям (Tu et al., 2023b;a). Недавно OpenAI представила o1, которая была обучена на огромном количестве данных CoT, еще больше расширив возможности LLM в решении научных проблем. В этой статье мы стремимся исследовать, эффективно ли улучшенные способности o1 переносятся в клиническую медицинскую область.

Медицинские большие языковые модели. Благодаря возможностям обобщения LLM, модели общего назначения, такие как GPT-4, продемонстрировали впечатляющую производительность в сложных медицинских задачах (Nori et al., 2023a; Wu et al., 2024b). Некоторые исследователи пытались дополнительно оснастить LLM биомедицинскими знаниями, точно настраивая их с помощью корпусов, специфичных для предметной области (Chen et al., 2023; Wang et al., 2023; Wu et al., 2024a; Li et al., 2023). Однако для клинического применения LLM должны не только понимать специфичные для медицинской области знания, но и давать надежные ответы, выполняя логические рассуждения. В этой статье мы стремимся изучить потенциал o1 в качестве клинически жизнеспособной модели. Наши экспериментальные результаты показывают, что благодаря улучшенному пониманию, рассуждению и многоязычным медицинским возможностям o1 делает шаг ближе к надежной клинической системе ИИ.

3. Конвейер оценки

3.1 Общая таксономия оценок

Сначала мы представляем таксономию нашей оценки вместе с обзором конвейера оценки, как показано на Рисунке 3. Во-первых, мы определяем три аспекта возможностей модели, а именно понимание, рассуждение и многоязычность, которые соответствуют реальным потребностям практикующих врачей. Чтобы обеспечить комплексную оценку, мы собираем разнообразный набор медицинских задач и наборов данных, которые относятся к этим трем аспектам. Более того, мы исследуем три стратегии подсказок в нашем конвейере, включая (1) прямые подсказки, которые инструктируют LLM напрямую решать конкретные проблемы, (2) цепочку мыслей, которая требует от моделей пошагового обдумывания перед генерацией окончательного ответа, (3) few-shot подсказки, которые предоставляют моделям несколько примеров для изучения сопоставления входных и выходных данных на лету. Наконец, для измерения расхождения между сгенерированными ответами и истинными ответами используются соответствующие метрики. Подробная информация о метриках, используемых в каждом наборе данных, представлена в Таблице 1.

3.2 Аспекты и задачи

В Таблице 1 наши усилия по оценке структурированы в три основные части: аспект, задача и набор данных. В частности, набор данных относится к самим данным вместе с метриками, используемыми в текущем контексте. Мы используем 35 существующих наборов данных и создаем 2 дополнительных сложных набора данных для оценки. Задача - это набор нескольких наборов данных, которые имеют общую цель или оценивают схожие возможности модели. Мы классифицируем все 37 наборов данных на 6 задач для более четкой оценки и анализа. Аспект описывает конкретную способность или свойство, чтобы понять, насколько хорошо модель работает в определенной области. В нашем конвейере оценки мы фокусируемся на трех ключевых аспектах.

Формально мы иллюстрируем эти три аспекта оценки с их соответствующими задачами следующим образом:

  • Понимание относится к способности модели использовать свои внутренние медицинские знания для понимания медицинских концепций. Например, в задаче распознавания концепций от модели требуется извлечь или уточнить медицинские концепции из статьи (Savery et al., 2020; Pafilis et al., 2013; Nye et al., 2018) или диагностического отчета (Zhao et al., 2023). А при реферировании модели необходимо понимать концепции в сложных текстах, чтобы генерировать краткое резюме (Lee et al., 2021; Wallace et al., 2021; Johnson et al., 2019; 2023).
  • Рассуждение - это способность проводить несколько этапов логического мышления, чтобы прийти к заключению. В задачах вопросов и ответов модели предлагается выбрать правильный вариант из нескольких вариантов на основе рассуждений, полученных из медицинской информации, представленной в вопросе. В дополнение к распространенным наборам данных вопросов и ответов (Jin et al., 2019; Pal et al., 2022; Jin et al., 2021) мы собираем реальные клинические вопросы из The Lancet, New England Journal of Medicine (NEJM) и Medbullets (Chen et al., 2024), чтобы лучше оценить клиническую полезность LLM. В задаче клинических предложений от модели требуется предоставить предложения по лечению (Dubey et al., 2023; Li et al., 2023) или диагностические решения (Xie et al., 2022; Fansi Tchango et al., 2022) на основе информации о пациентах. В наборах данных AI Hospital (Fan et al., 2024) и AgentClinic (Schmidgall et al., 2024) мы ставим перед моделью задачу выступать в качестве медицинского агента. Кроме того, в наборе данных MedCalc-Bench (Khandekar et al., 2024) от модели требуется выполнять математические рассуждения и вычислять ответы.
  • Многоязычность - это способность выполнять задачу, когда языки входных инструкций и/или выходных ответов изменяются на разные языки. Например, набор данных XMedBench (Wang et al., 2024) требует от LLM отвечать на медицинские вопросы на шести языках, включая китайский, арабский, хинди, испанский, китайский и английский. В наборе данных AI Hospital (Fan et al., 2024) от модели требуется выступать в качестве агента, используя китайский язык.

3.3 Метрики

В этом разделе мы подробно остановимся на метриках, используемых в нашем конвейере оценки.

  • Точность используется для непосредственного измерения процента сгенерированных моделью ответов, которые точно совпадают с истинными ответами. Мы используем точность для наборов данных с вопросами с несколькими вариантами ответов, набора данных MedCalc-Bench (Khandekar et al., 2024) и частей наборов данных с клиническими предложениями и распознаванием концепций, где истинный ответ - это одно слово или фраза.
  • F1-мера (Pedregosa et al., 2011) - это гармоническое среднее точности и полноты. Она используется в наборах данных, где от модели требуется выбрать несколько правильных ответов.
  • BLEU (Papineni et al., 2002) и ROUGE (Lin & Hovy, 2002) - это метрики NLP, измеряющие сходство между сгенерированным ответом и истинным ответом. В частности, мы используем BLEU-1 и ROUGE-1 для всех задач свободной генерации в нашей оценке.
  • AlignScore (Zha et al., 2023) - это метрика для измерения фактической согласованности сгенерированного текста. В этой статье мы используем AlignScore для всех задач свободной генерации, чтобы оценить степень галлюцинаций модели.
  • Mauve (Pillutla et al., 2021) - это мера разрыва между распределением сгенерированного и написанного человеком текста. Она используется для всех задач свободной генерации.

Все метрики находятся в диапазоне от 0 до 100, и более высокое число указывает на более качественный результат модели.

4. Эксперименты

4.1 Детали эксперимента

Стратегии подсказок. Для большинства наборов данных мы используем ту же стратегию подсказок, что и описанная в предыдущей литературе (Wu et al., 2024b; Nori et al., 2023b;a): для задач вопросов и ответов на знания, задач агентов, задач медицинских вычислений и многоязычных задач мы используем метод прямой подсказки, который согласуется с настройками этих бенчмарков. Для других задач, полученных из MedS-Bench (Wu et al., 2024b), мы следуем их настройкам бенчмарка, используя стратегию few-shot (3-shot) подсказок, шаблон которой показан в разделе A.1. Как официально предложено OpenAI, распространенные методы подсказок, такие как цепочка мыслей (CoT) (Wei et al., 2022) и контекстные примеры, могут не улучшить производительность o1, поскольку в нее встроен неявный CoT. Чтобы дополнительно проверить это утверждение, мы также исследуем влияние нескольких продвинутых подсказок в нашей оценке (например, CoT, Self-Consistency (Wang et al., 2022) и Reflex (Shinn et al., 2024)), подробные форматы входных инструкций приведены в разделе A.1.

Модели для оценки. Мы выбрали следующие модели для оценки: GPT-3.5 (gpt-3.5-turbo-0125), продвинутая языковая модель от OpenAI, известная своим улучшенным контекстным пониманием; GPT-4 (gpt-4-0125-preview) (Achiam et al., 2023), преемник GPT-3.5 со значительными улучшениями в рассуждениях и понимании языка; o1 (o1-preview-2024-09-12) (OpenAI, 2024), последняя модель LLM, способная выполнять очень сложные рассуждения с помощью цепочки рассуждений. Помимо этих моделей с закрытым исходным кодом, мы также включили в наши эксперименты две модели с открытым исходным кодом: MEDITRON-70B (Chen et al., 2023), LLM, обученную на медицинских данных, и Llama3-8B (Meta, 2024), последнюю и самую сильную открытую LLM на данный момент.

4.2 Основной результат: Да! Мы на один шаг ближе к врачу-ИИ

Улучшенные способности o1 переносятся на ее клиническое понимание. Учитывая установленные результаты o1, которые подчеркивают ее замечательную эффективность в знаниях и способностях к рассуждению, таких как решение математических задач и генерация кода (OpenAI, 2024), мы наблюдаем, что эта превосходная способность также может быть перенесена на конкретное клиническое понимание знаний. Результаты, представленные в Таблице 2, демонстрируют, что o1 превосходит другие модели по аспекту понимания в большинстве клинических задач. Мы также представляем эту статистику на Рисунке 1, где мы наблюдаем, что o1 имеет больший радиус охвата по различным медицинским наборам данных. Например, на 5 наборах данных распознавания концепций, которые используют F1 в качестве метрики, o1 превосходит как GPT-4, так и GPT-3.5 в среднем на 7,6% и 26,6% соответственно (т.е. 72,6% против 65,0% против 46,0%), с заметным средним улучшением на 24,5% на широко используемом наборе данных BC4Chem.

Кроме того, в задаче реферирования в Таблице 3 o1 достигает увеличения оценки ROUGE-1 на 2,4% и 3,7% по сравнению с GPT-4 и GPT-3.5 (т.е. 31,4% против 29,0% против 27,7%), демонстрируя свою улучшенную способность к пониманию реальных клинических данных. Это улучшение производительности подтверждает, что достижения в общих возможностях NLP для LLM могут эффективно привести к улучшению понимания модели в медицинской области.

Модель o1 демонстрирует сильные рассуждения в клинических диагностических сценариях. В отношении рассуждений o1 делает значительный шаг вперед, демонстрируя свои преимущества в реальных диагностических ситуациях. В наших недавно созданных сложных задачах вопросов и ответов, NEJMQA и LacentQA, o1 демонстрирует среднее улучшение точности на 8,9% и 27,1% по сравнению с производительностью GPT-4 (79,6%) и GPT-3.5 (61,5%) на соответствующих наборах данных (Таблица 2). Еще одно заметное улучшение в o1 - это ее способность к математическим рассуждениям, повышая базовый уровень MedCalc-Bench до 34,9%, что значительно превосходит GPT-4 на 9,4%. В более сложных сценариях рассуждений, которые включают многооборотные разговоры и моделирование окружающей среды, o1 превосходит как GPT-4, так и GPT-3.5 по бенчмарку AgentClinic, достигая прироста точности не менее 15,5% и 10% с оценками 45,5% и 20,0% по ее подмножествам MedQA и NEJM соответственно. Эти наблюдения служат убедительным доказательством компетентности o1 в сложных сценариях реальной диагностики и клинического применения.

Помимо обеспечения более высокой точности, o1 предоставляет более краткие и понятные ответы. В примере, показанном на Рисунке 4, o1 генерирует более короткие интерпретации, предлагая при этом правильный ответ. Напротив, GPT-4 имеет тенденцию генерировать галлюцинированные объяснения наряду с неправильными ответами. Мы считаем, что улучшение o1 как в знаниях, так и в рассуждениях в первую очередь связано с улучшенными данными и инфраструктурой, используемыми в процессе обучения (например, данными CoT и методом обучения с подкреплением).

Эти результаты вместе дают положительный ответ на вопрос, который мы подняли в этой статье: Да! Мы приближаемся к автоматическому врачу-ИИ с последней моделью o1.

4.3 Дальнейший анализ

Ни одна модель не превосходит все задачи в медицинской области. Таблицы 2 и 3 показывают, что на данный момент всегда есть компромиссы (даже при одной и той же метрике), которые необходимо учитывать при выборе модели для использования в медицинской области. Одним из примеров является задача поддержки клинических решений в Таблице 2. o1 превосходит как GPT-4, так и GPT-3.5 по большинству наборов данных, но значительно отстает от GPT-4 по набору данных MIMIC4ED-Critical Triage на 5% по точности. Интересно, что мы также обнаружили, что недавно выпущенная открытая LLM Llama3 лидирует в наборах данных PMC-Patient и PICO-Intervention с неожиданным разрывом в точности в 19,6% между o1 и Llama3 по PMC-Patient (76,4% против 96,0%). Тем не менее, o1 близка к тому, чтобы быть лучшей в большинстве ситуаций, она занимает лидирующие позиции по наборам данных в поддержке клинических решений, вопросах и ответах на знания и медицинских вычислениях. Это утверждение подтверждается средним результатом по точности 19 наборов данных в Таблице 2 и на Рисунке 2: o1 (74,3%) > GPT-4 (68,1%) > GPT-3.5 (53,2%).

Расширенные подсказки могут частично помочь моделям, обученным с данными CoT. o1 была выпущена с использованием встраивания данных цепочки мыслей (CoT) в процессе обучения; однако мы обнаружили, что применение подсказок CoT все еще улучшает производительность o1 в задачах вопросов и ответов на знания в медицине, как показано в Таблице 6. Таблица показывает среднее повышение на 3,18% по сравнению с исходной точностью o1 в 83,6%. Хотя это улучшение не так значительно, как у GPT-4, CoT оказывается многообещающим способом направления o1 в медицинских задачах. Однако, когда дело доходит до других интересных подсказок, таких как self-consistency (SC) (Wang et al., 2022) и reflex (Shinn et al., 2024), этот вывод может не сохраняться. Мы наблюдаем среднее снижение производительности на 12,8% при использовании этих двух стратегий по сравнению с только CoT на LancetQA

Галлюцинации остаются серьезной проблемой. Мы используем AlignScore (Zha et al., 2023) для оценки галлюцинаций в LLM. В Таблице 4 модель o1 демонстрирует снижение AlignScore на 1,3% по сравнению с GPT-4 по пяти наборам данных реферирования текста. Более того, общие улучшения o1 по трем задачам (Таблица 4) в AlignScore значительно отстают от других метрик оценки — в среднем 0,7 в AlignScore по сравнению с 9,9 в Mauve относительно GPT-4. Это указывает на то, что o1 все еще подвержена языковым галлюцинациям, подчеркивая, что такая проблема остается постоянной проблемой в LLM.

o1 испытывает трудности в рассуждениях над сложными многоязычными задачами. Ожидается, что продвинутые LLM будут демонстрировать эквивалентные способности к рассуждению на языках, отличных от английского. Однако, поскольку o1 постоянно превосходит другие модели в многоязычных задачах вопросов и ответов: o1 (85,2%) > GPT-4 (75,7%) > GPT-3.5 (54,1%) в среднем (Таблица 8), она не справляется с гораздо более сложным китайским бенчмарком агентов в Таблице 5 — показывая падение точности на 1,6% в сценарии медицинских осмотров по сравнению с GPT-4 (43,4% против 45,0%), оставляя желать лучшего ее многоязычные рассуждения в сложных ситуациях. Этот интересный результат может быть связан с отсутствием многоязычных данных CoT во время обучения o1, поскольку изучение сложных маршрутов рассуждений обычно требует больших усилий, чем простые инструкции в парадигме few-shot (Kim et al., 2023; Singh et al., 2024). Мы представляем пример сбоя o1 в AI Hospital на Рисунке 5. Мы выявили случаи смешанного языкового вывода в генерации от врача, которые способствуют неоптимальной производительности o1 в этом контексте.

LLM сталкиваются с предвзятым суждением при использовании различных метрик. Выбор различных метрик может привести к различным результатам оценки LLM (Liang et al., 2022). В наших экспериментах мы наблюдаем аналогичную несогласованную тенденцию, даже используя традиционные метрики NLP, такие как BLEU-1, ROUGE-1 и Mauve. В большинстве случаев из Таблицы 3 o1 превосходит GPT-4 по обоим традиционным измерениям, основанным на ссылках (т.е. BLEU-1, ROUGE-1) в среднем. Одно исключение возникает при сравнении BLEU-1 для задач клинических предложений. В то время как o1 значительно превосходит GPT-4 по ROUGE-L (24,4% против 17,2%), она неожиданно уступает по BLEU-1: o1 (15,3) < GPT-4 (16,2). При рассмотрении оценок Mauve, хотя o1 постоянно превосходит GPT-4 как по среднему BLEU-1, так и по ROUGE-1 для задач реферирования текста, она все еще отстает на 2,9 балла по Mauve, даже при оценке по одним и тем же выходным текстам. Аналогичная аномалия также может наблюдаться при сравнении точности и F1-меры. В то время как Llama3 значительно превосходит o1 по точности на двух наборах данных распознавания концепций, она постоянно отстает от o1 по F1 в тех же случаях. Эти результаты подчеркивают острую необходимость в выявлении или разработке более надежных метрик для современных LLM.