Гонка за O1: Как мы пытаемся повторить прорыв OpenAI и изобретаем

https://github.com/GAIR-NLP/O1-Journey/tree/main

https://huggingface.co/datasets/GAIR/o1-journey

Мир искусственного интеллекта потрясла новость о модели OpenAI под названием O1 – мощной языковой модели, способной решать сложные задачи, требующие рассуждений. Но OpenAI держит подробности о своей разработке в секрете. Наша команда из Generative AI Research Lab (GAIR) решила изменить ситуацию. Мы начали проект "Путешествие к O1" – открытое и прозрачное исследование, цель которого не просто повторить O1, а продемонстрировать новый подход к проведению и описанию исследований в области ИИ.

https://arxiv.org/pdf/2410.18982

https://arxiv.org/pdf/2411.16489

Почему традиционный подход не работает?

Традиционные научные статьи публикуются после завершения исследования. Это создает проблемы:

Изоляция информации: Долгосрочные проекты с большими командами часто страдают от недостатка обмена информацией.
Задержка: Результаты публикуются с задержкой, что тормозит общий прогресс.
Выгорание: Длительные проекты без промежуточной обратной связи могут вызывать у исследователей выгорание.

Наш подход: прозрачность и "обучение путем путешествия"

Мы ведем подробный дневник нашего исследования в режиме реального времени, делясь успехами и неудачами. Это позволяет:

Ускорить общий прогресс: Другие исследователи могут учиться на наших ошибках и избегать лишней работы.
Повысить мотивацию: Постоянная обратная связь и открытый обмен знаниями поддерживают мотивацию команды.
Создать ценный набор данных: Подробная документация нашего процесса станет отличным набором данных для обучения будущих ИИ-систем, способных к научным открытиям.

Ключевое открытие: "Обучение путем путешествия"

В ходе исследования мы разработали новый подход к обучению моделей – "обучение путем путешествия". В отличие от традиционного "обучения по ярлыкам" (где модель ищет только кратчайший путь к решению), наш метод имитирует человеческое мышление: модель изучает весь процесс решения задачи, включая ошибки, размышления и возвраты к предыдущим шагам. Результаты впечатляют: с ограниченным количеством данных (всего 327 примеров) наш метод превзошел традиционное обучение на более чем 8% в решении математических задач. Мы считаем, что это ключевой элемент технологии O1, который нам удалось расшифровать.

Что дальше?

Мы продолжаем наше "Путешествие к O1", и в наших планах:

Масштабирование процесса "обучения путем путешествия".
Исследование закономерностей масштабирования "длинных рассуждений".
Разработка более точных методов оценки качества рассуждений.
Улучшение взаимодействия человека и ИИ в процессе аннотации данных.
Усовершенствование моделей вознаграждения и критики.

Мы открыто делимся всеми нашими ресурсами на GitHub: https://github.com/GAIR-NLP/O1-Journey. Присоединяйтесь к нашему путешествию!

Прорыв или обман? Как простое дистиллирование превзошло OpenAI O1-preview

Вторая часть нашего исследования репликации модели OpenAI O1 раскрывает неожиданный результат: простое дистиллирование с использованием API O1, в сочетании с обычным обучением с учителем, позволило нам создать модель, превосходящую O1-preview в решении сложных математических задач.

Проблема непрозрачности в исследованиях ИИ

После анонса OpenAI модели O1, демонстрирующей невероятные способности к рассуждению, началась гонка за репликацией. Однако многие исследования скрывают свои методы, хвастаясь только результатами. Это создаёт серьёзные проблемы:

Невозможность проверки: Трудно оценить достоверность заявлений о прорывах без прозрачности методологии.
Застой инноваций: Учёные начинают полагаться на существующие мощные модели, вместо того, чтобы разрабатывать новые фундаментальные методы.
Ограничения дистилляции: Модели, обученные методом дистилляции, ограничены возможностями "учителя" (в данном случае O1).
Ущерб для образования: Молодые исследователи теряют возможность развивать навыки решения задач с нуля, полагаясь на готовые решения.

Наш подход: дистилляция и обучение с учителем

Мы использовали простой, но эффективный метод: дистилляцию знаний из API O1. Мы запрашивали у O1 решения сложных математических задач, получали "длинные цепочки рассуждений" и использовали их для обучения нашей модели. Результат: наша модель, обученная на десятках тысяч таких примеров, превзошла O1-preview на экзамене American Invitational Mathematics Examination (AIME).

Индекс технической прозрачности (TTI)

Для оценки прозрачности исследований в области репликации O1 мы разработали Индекс технической прозрачности (TTI). Он оценивает:

Прозрачность данных: Доступность, качество и документация используемых наборов данных.
Методологическая прозрачность: Подробное описание методов и экспериментальных настроек.
Прозрачность оценки: Воспроизводимость и полнота оценок производительности.
Открытость ресурсов: Доступность кода, данных и моделей.

Выход за рамки математики

Мы проверили, как наша модель, обученная на математических задачах, обобщает свои навыки на другие задачи: безопасность, выявление галлюцинаций и ответы на вопросы в открытом домене. Результаты показали хорошую обобщающую способность, а также снижение склонности к "подхалимажу" (соглашательству с заведомо ложными утверждениями в запросе).

Главный вывод: "горький урок"

Хотя дистилляция — мощный инструмент, чрезмерная зависимость от неё опасна. Быстрые результаты не должны заменять фундаментальные исследования. Развитие навыков решения задач с нуля, "мышление с первых принципов", важнее, чем погоня за впечатляющими метриками. Мы должны воспитывать новое поколение исследователей ИИ, способных к настоящим инновациям, а не просто к оптимизации существующих решений.

В заключение, наша работа призывает к большей прозрачности и оригинальности в исследованиях ИИ. Дистилляция — это полезный инструмент, но не панацея. Фундаментальные исследования и развитие навыков критического мышления у будущих исследователей — залог настоящего прогресса в области искусственного интеллекта.