January 12

Sky-T1: Обучение своей модели альтернативы O1 preview менее чем за $450

Авторы представляют Sky-T1-32B-Preview - модель для рассуждений, которая показывает результаты на уровне o1-preview в популярных тестах на рассуждения и программирование.

Примечательно, что Sky-T1-32B-Preview была обучена менее чем за $450, демонстрируя возможность доступного и эффективного воспроизведения возможностей рассуждения высокого уровня.

https://novasky-ai.github.io/posts/sky-t1/
Весь код находится в открытом доступе.

Обзор

Такие модели как o1 и Gemini 2.0 показали возможность решать сложные задачи, выстраивая длинные внутренние цепочки рассуждений. Однако технические детали и веса моделей недоступны, что создаёт барьер для участия академического сообщества и сообщества открытого кода.

В ответ на это появилось несколько заметных попыток обучить модели с открытыми весами в области математики, такие как Still-2 и Journey. Параллельно команда NovaSky из Калифорнийского университета в Беркли исследовала различные техники для развития способностей к рассуждению у базовых моделей и моделей с инструктивной настройкой. В этой работе авторы достигли конкурентоспособной производительности не только в математике, но и в программировании в рамках одной модели.

Полностью открытый исходный код: Развитие проекта вместе

Чтобы обеспечить пользу для широкого сообщества, авторы полностью привержены открытому сотрудничеству. Авторы открывают доступ ко всем деталям (данным, кодам, весам модели) чтобы сообщество могло легко воспроизвести и улучшить результаты:

  • Infrastructure: для создания данных, обучения и оценки модели в едином репозитории.
  • Data: 17 тысяч примеров, использованных для обучения Sky-T1-32B-Preview.
  • Technical details: Технический report с логами wandb log.
  • Model weights: Веса 32B модели.

Делясь всеми этими ресурсами, авторы стремятся дать возможность академическому сообществу и сообществу открытого кода развивать эту работу, исследовать новые возможности и расширять границы разработки моделей для рассуждений.

Рецепты

Процесс подготовки данных

Для генерации обучающих данных авторы используют QwQ-32B-Preview - модель с открытым исходным кодом, обладающую способностями к рассуждению на уровне o1-preview. Авторы подготовили смесь данных (см. далее) для охвата различных областей, требующих рассуждений, и применили процедуру отбора для улучшения качества данных. Затем авторы переписали трассировки QwQ с помощью GPT-4o-mini в хорошо форматированную версию, вдохновленную Still-2, для улучшения качества данных и упрощения парсинга. Авторы обнаружили, что простота парсинга особенно полезна для моделей рассуждения - они обучены отвечать в определенном формате, где результаты часто сложно парсить. Например, в наборе данных APPs без переформатирования можно только предполагать, что код написан в последнем блоке кода, где QwQ достигает только ~25% точности. Однако иногда код может быть написан в середине, и после переформатирования точность повышается до более чем 90%.

Отбор образцов:

Авторы отбрасывают образцы QwQ, если они неверны согласно решениям, предоставленным в наборах данных. Для математических задач проводится точное сравнение с эталонными решениями. Для задач программирования выполняются модульные тесты из наборов данных. Итоговые данные содержат 5 тысяч примеров программирования из APPs и TACO, и 10 тысяч математических задач из AIME, MATH и олимпиадных подмножеств набора данных NuminaMATH. Дополнительно сохранена 1 тысяча научных задач и головоломок из STILL-2.

Обучение

Авторы используют обучающие данные для дообучения Qwen2.5-32B-Instruct - модели с открытым исходным кодом без способностей к рассуждению. Модель обучается в течение 3 эпох со скоростью обучения 1e-5 и размером пакета 96. Обучение модели завершается за 19 часов на 8 H100 с использованием DeepSpeed Zero-3 offload (около $450 по ценам Lambda Cloud). Для обучения используется Llama-Factory.

Другие наблюдения

Размер модели имеет значение.
Изначально авторы экспериментировали с обучением на меньших моделях (7B и 14B), но наблюдали только умеренные улучшения. Например, обучение Qwen2.5-14B-Coder-Instruct на наборе данных APPs привело к небольшому повышению производительности на LiveCodeBench с 42.6% до 46.3%. Однако при ручной проверке выходных данных меньших моделей (менее 32B) было обнаружено, что они часто генерируют повторяющийся контент, ограничивая их эффективность.

Смесь данных имеет значение.
Изначально авторы обучили 32B модель, используя 3-4 тысячи математических задач из набора данных Numina (предоставленного STILL-2), достигнув значительного улучшения точности AIME24 с 16.7% до 43.3%. Однако когда в процесс обучения были включены данные программирования из набора APPs, точность AIME24 снизилась до 36.7%. Авторы предполагают, что это снижение связано с различными подходами к рассуждению, необходимыми для математических задач и задач программирования.

Рассуждения в программировании часто включают дополнительные логические шаги, такие как симуляция тестовых входных данных или внутреннее выполнение сгенерированного кода, тогда как рассуждения для математических задач обычно более прямые и структурированные. Чтобы решить эти различия, авторы обогатили обучающие данные сложными математическими задачами из набора NuminaMath и сложными задачами программирования из набора TACO. Эта сбалансированная смесь данных позволила модели преуспеть в обеих областях, восстановив точность 43.3% на AIME24 при одновременном улучшении возможностей программирования.

Будущее развитие

Sky-T1-32B-Preview отмечает начало пути авторов к разработке моделей с открытым исходным кодом, обладающих продвинутыми способностями к рассуждению. В дальнейшем авторы сосредоточатся на разработке более эффективных моделей, сохраняющих высокую производительность в рассуждениях, и исследовании передовых методов, которые дополнительно повышают эффективность и точность моделей при тестировании. Следите за новостями о прогрессе в этих захватывающих инициативах.

Благодарности

Эта работа выполнена в Berkeley Sky Computing Lab, при поддержке вычислительных ресурсов от Lambda Labs и Anyscale. Авторы выражают благодарность за ценную академическую обратную связь и поддержку от команды Still-2 Team и Junyang Lin из команды Qwen Team.