Гонка за O1: Как мы пытаемся повторить прорыв OpenAI и изобретаем
https://github.com/GAIR-NLP/O1-Journey/tree/main
https://huggingface.co/datasets/GAIR/o1-journey
Мир искусственного интеллекта потрясла новость о модели OpenAI под названием O1 – мощной языковой модели, способной решать сложные задачи, требующие рассуждений. Но OpenAI держит подробности о своей разработке в секрете. Наша команда из Generative AI Research Lab (GAIR) решила изменить ситуацию. Мы начали проект "Путешествие к O1" – открытое и прозрачное исследование, цель которого не просто повторить O1, а продемонстрировать новый подход к проведению и описанию исследований в области ИИ.
https://arxiv.org/pdf/2410.18982
https://arxiv.org/pdf/2411.16489
Почему традиционный подход не работает?
Традиционные научные статьи публикуются после завершения исследования. Это создает проблемы:
- Изоляция информации: Долгосрочные проекты с большими командами часто страдают от недостатка обмена информацией.
- Задержка: Результаты публикуются с задержкой, что тормозит общий прогресс.
- Выгорание: Длительные проекты без промежуточной обратной связи могут вызывать у исследователей выгорание.
Наш подход: прозрачность и "обучение путем путешествия"
Мы ведем подробный дневник нашего исследования в режиме реального времени, делясь успехами и неудачами. Это позволяет:
- Ускорить общий прогресс: Другие исследователи могут учиться на наших ошибках и избегать лишней работы.
- Повысить мотивацию: Постоянная обратная связь и открытый обмен знаниями поддерживают мотивацию команды.
- Создать ценный набор данных: Подробная документация нашего процесса станет отличным набором данных для обучения будущих ИИ-систем, способных к научным открытиям.
Ключевое открытие: "Обучение путем путешествия"
В ходе исследования мы разработали новый подход к обучению моделей – "обучение путем путешествия". В отличие от традиционного "обучения по ярлыкам" (где модель ищет только кратчайший путь к решению), наш метод имитирует человеческое мышление: модель изучает весь процесс решения задачи, включая ошибки, размышления и возвраты к предыдущим шагам. Результаты впечатляют: с ограниченным количеством данных (всего 327 примеров) наш метод превзошел традиционное обучение на более чем 8% в решении математических задач. Мы считаем, что это ключевой элемент технологии O1, который нам удалось расшифровать.
Мы продолжаем наше "Путешествие к O1", и в наших планах:
- Масштабирование процесса "обучения путем путешествия".
- Исследование закономерностей масштабирования "длинных рассуждений".
- Разработка более точных методов оценки качества рассуждений.
- Улучшение взаимодействия человека и ИИ в процессе аннотации данных.
- Усовершенствование моделей вознаграждения и критики.
Мы открыто делимся всеми нашими ресурсами на GitHub: https://github.com/GAIR-NLP/O1-Journey. Присоединяйтесь к нашему путешествию!
Прорыв или обман? Как простое дистиллирование превзошло OpenAI O1-preview
Вторая часть нашего исследования репликации модели OpenAI O1 раскрывает неожиданный результат: простое дистиллирование с использованием API O1, в сочетании с обычным обучением с учителем, позволило нам создать модель, превосходящую O1-preview в решении сложных математических задач.
Проблема непрозрачности в исследованиях ИИ
После анонса OpenAI модели O1, демонстрирующей невероятные способности к рассуждению, началась гонка за репликацией. Однако многие исследования скрывают свои методы, хвастаясь только результатами. Это создаёт серьёзные проблемы:
- Невозможность проверки: Трудно оценить достоверность заявлений о прорывах без прозрачности методологии.
- Застой инноваций: Учёные начинают полагаться на существующие мощные модели, вместо того, чтобы разрабатывать новые фундаментальные методы.
- Ограничения дистилляции: Модели, обученные методом дистилляции, ограничены возможностями "учителя" (в данном случае O1).
- Ущерб для образования: Молодые исследователи теряют возможность развивать навыки решения задач с нуля, полагаясь на готовые решения.
Наш подход: дистилляция и обучение с учителем
Мы использовали простой, но эффективный метод: дистилляцию знаний из API O1. Мы запрашивали у O1 решения сложных математических задач, получали "длинные цепочки рассуждений" и использовали их для обучения нашей модели. Результат: наша модель, обученная на десятках тысяч таких примеров, превзошла O1-preview на экзамене American Invitational Mathematics Examination (AIME).
Индекс технической прозрачности (TTI)
Для оценки прозрачности исследований в области репликации O1 мы разработали Индекс технической прозрачности (TTI). Он оценивает:
- Прозрачность данных: Доступность, качество и документация используемых наборов данных.
- Методологическая прозрачность: Подробное описание методов и экспериментальных настроек.
- Прозрачность оценки: Воспроизводимость и полнота оценок производительности.
- Открытость ресурсов: Доступность кода, данных и моделей.
Мы проверили, как наша модель, обученная на математических задачах, обобщает свои навыки на другие задачи: безопасность, выявление галлюцинаций и ответы на вопросы в открытом домене. Результаты показали хорошую обобщающую способность, а также снижение склонности к "подхалимажу" (соглашательству с заведомо ложными утверждениями в запросе).
Хотя дистилляция — мощный инструмент, чрезмерная зависимость от неё опасна. Быстрые результаты не должны заменять фундаментальные исследования. Развитие навыков решения задач с нуля, "мышление с первых принципов", важнее, чем погоня за впечатляющими метриками. Мы должны воспитывать новое поколение исследователей ИИ, способных к настоящим инновациям, а не просто к оптимизации существующих решений.
В заключение, наша работа призывает к большей прозрачности и оригинальности в исследованиях ИИ. Дистилляция — это полезный инструмент, но не панацея. Фундаментальные исследования и развитие навыков критического мышления у будущих исследователей — залог настоящего прогресса в области искусственного интеллекта.