Исследователи создали открытого конкурента модели рассуждений OpenAI o1 меньше чем за 50 долларов
https://github.com/simplescaling/s1
https://arxiv.org/pdf/2501.19393
https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/
5 февраля 2025 года исследователи из Стэнфорда и Вашингтонского университета смогли обучить ИИ-модель "рассуждений" менее чем за 50 долларов в облачных вычислительных кредитах, согласно новой [https://arxiv.org/pdf/2501.19393](research paper), опубликованной в прошлую пятницу.
Модель, известная как s1, показывает результаты, аналогичные передовым моделям рассуждений, таким как o1 от OpenAI и R1 от DeepSeek, в тестах, измеряющих математические и программистские способности. Модель s1 [https://github.com/simplescaling/s1](GitHub) вместе с данными и кодом, использованными для ее обучения.
Команда s1 рассказала, что они начали с готовой базовой модели, а затем доработали ее с помощью дистилляции - процесса извлечения возможностей "рассуждения" из другой ИИ-модели путем обучения на ее ответах.
Исследователи заявили, что s1 дистиллирована из одной из моделей рассуждений Google, Gemini 2.0 Flash Thinking Experimental. Дистилляция - это тот же подход, который исследователи из Беркли использовали для [создания ИИ-модели рассуждений примерно за 450 долларов в прошлом месяце].
Для некоторых идея о том, что несколько исследователей без миллионов долларов за спиной все еще могут внедрять инновации в области ИИ, является захватывающей. Но s1 поднимает реальные вопросы о коммодитизации ИИ-моделей. Где же конкурентное преимущество, если кто-то может почти полностью воспроизвести многомиллионную модель за относительные копейки?
Неудивительно, что крупные ИИ-лаборатории недовольны. OpenAI обвинила DeepSeek в неправомерном сборе данных из своего API для [дистилляции моделей](model distillation).
Исследователи, стоящие за s1, стремились найти самый простой подход для достижения высокой производительности рассуждений и "масштабирования во время тестирования", или предоставления ИИ-модели возможности больше думать, прежде чем ответить на вопрос. Это были некоторые из прорывов в o1 от OpenAI, которые DeepSeek и другие ИИ-лаборатории пытались воспроизвести с помощью различных методов.
В статье об s1 предполагается, что модели рассуждений могут быть дистиллированы с относительно небольшим набором данных с помощью процесса, называемого контролируемой доработкой (SFT), в котором ИИ-модели дается явная инструкция имитировать определенное поведение в наборе данных.
SFT, как правило, дешевле, чем метод обучения с подкреплением в большом масштабе, который DeepSeek использовала для обучения своего конкурента модели o1 от OpenAI, R1.
Google предлагает бесплатный доступ к Gemini 2.0 Flash Thinking Experimental, хотя и с ежедневными ограничениями скорости, через свою платформу Google AI Studio. Однако условия Google запрещают обратное проектирование своих моделей для разработки сервисов, конкурирующих с собственными предложениями ИИ компании.
S1 основана на небольшой готовой ИИ-модели от принадлежащей Alibaba китайской ИИ-лаборатории Qwen, которую можно бесплатно скачать. Для обучения s1 исследователи создали набор данных всего из 1000 тщательно отобранных вопросов, в сочетании с ответами на эти вопросы, а также с "процессом мышления" за каждым ответом от Gemini 2.0 Flash Thinking Experimental от Google.
После обучения s1, которое заняло менее 30 минут с использованием 16 графических процессоров Nvidia H100, s1 достигла высокой производительности по определенным ИИ-бенчмаркам, по словам исследователей. Никлас Мюннигхофф, исследователь из Стэнфорда, работавший над проектом, сообщил, что сегодня он может арендовать необходимые вычислительные мощности примерно за 20 долларов.
Исследователи использовали хитрость, чтобы заставить s1 перепроверять свою работу и увеличить время "мышления": они сказали ей подождать. Добавление слова "подождать" во время рассуждений s1 помогло модели получить немного более точные ответы, согласно статье.
В 2025 году Meta, Google и Microsoft планируют инвестировать сотни миллиардов долларов в ИИ-инфраструктуру, которая частично пойдет на обучение ИИ-моделей следующего поколения.
Этот уровень инвестиций все еще может быть необходим для продвижения инноваций в области ИИ. Дистилляция показала себя хорошим методом для дешевого воссоздания возможностей ИИ-модели, но она не создает новые ИИ-модели, значительно лучшие, чем те, что доступны сегодня.