OLMo 2: Лучшая полностью открытая языковая модель на сегодняшний день?
https://allenai.org/blog/olmo2
С момента выпуска первой версии OLMo в феврале 2024 года мы наблюдаем стремительное развитие экосистемы открытых языковых моделей и сокращение разрыва в производительности между открытыми и проприетарными моделями. OLMo-0424 показала заметный рост производительности по сравнению с нашей первой версией. Мы также вдохновлены увеличением участия в разработке полностью открытых моделей, в том числе такими проектами, как Amber от LLM360, Neo от M-A-P и базовые модели от DCLM. В сентябре мы выпустили OLMoE — модель со смесью экспертов, которая стала первой среди полностью открытых моделей, достигнувшей Парето-оптимального уровня производительности и размера.
Поскольку полностью открытая наука требует большего, чем просто открытые веса, мы рады представить новое обновление OLMo, включающее веса, данные, код, рецепты, промежуточные контрольные точки и модели, настроенные на инструкции, для широкой языковой исследовательской сообщества!
Анонс OLMo 2
Мы представляем OLMo 2 — новое семейство моделей с параметрами 7B и 13B, обученных на объеме данных до 5 триллионов токенов. Эти модели сопоставимы или превосходят аналогичные по размеру полностью открытые модели и конкурируют с моделями с открытыми весами, такими как Llama 3.1, по академическим английским тестам.
График: Сравнение языковых моделей по производительности (ось Y, средняя производительность по 10 тестам) и вычислительной стоимости обучения (ось X, в FLOPs). Модели OLMo 2 (отмечены звездами) демонстрируют оптимальную эффективность. OLMo-2-13B и OLMo-2-7B находятся на переднем крае производительности среди других открытых моделей, таких как DCLM, Llama 3.1, StableLM 2 и Qwen 2.5. Диапазон FLOPs: от 4×10^22 до 2×10^24. Диапазон производительности: от 35 до 70 очков.
Ключевые достижения OLMo 2
Мы достигли этих результатов благодаря инвестициям в ключевые аспекты разработки моделей и глубокому изучению часто упускаемых, но важных факторов:
- Стабильность обучения
Длительные циклы обучения часто сопровождаются нестабильностями и всплесками потерь, что снижает итоговую производительность модели. В нашем техническом отчете, который скоро будет опубликован, мы расскажем о методах, которые помогли нам повысить стабильность долгосрочного обучения. - Многоэтапное обучение: улучшения на поздних стадиях
Предобучение медленное и дорогое, поэтому важно находить способы устранения недостатков модели в процессе обучения. Мы обсуждаем, как корректировка скорости обучения и применение учебных курсов на поздних этапах помогает «дополнить» способности модели, которые не были освоены ранее. - Современные методы пост-тренировки
Мы применили передовые методы пост-тренировки, разработанные для Tülu 3, к моделям OLMo 2. Попробуйте OLMo 2-Instruct-13B — нашу самую мощную модель — на платформе Ai2 playground. - Оценочная структура OLMES
Мы установили четкие цели и правила масштабирования задач для OLMo 2, разработав систему оценки (OLMES), которая включает 20 тестов для проверки ключевых способностей моделей: общих знаний, здравого смысла, математического и логического мышления.
Сравнение OLMo 2 с другими моделями
Мы сравнили OLMo 2 с рядом базовых моделей, разделенных на три категории:
- Модели с открытыми весами
Выпущены только с финальной контрольной точкой, без информации о данных или рецептах обучения. - Частично открытые модели
Включают веса и большую часть данных, необходимых для воспроизведения. - Полностью открытые модели
Включают веса, данные, код и полную документацию, что делает их полностью проверяемыми.
Результаты:
OLMo 2 7B и 13B — лучшие полностью открытые модели на сегодняшний день. Они превосходят модели с открытыми весами аналогичного размера. Например, OLMo 2 7B превосходит LLama-3.1 8B, а OLMo 2 13B — Qwen 2.5 7B, несмотря на меньшие затраты FLOPs. Подробнее смотрите на графике выше.
Архитектура OLMo 2 схожа с первой версией, но имеет важные улучшения для повышения стабильности, такие как:
- переход на RMSNorm,
- замена абсолютных позиционных эмбеддингов на ротационные,
- регуляризация Z-loss,
- улучшенная инициализация.
- Этап 1: Основная часть (90% бюджета) проводилась на наборе OLMo-Mix-1124 (3,9 трлн токенов).
- Этап 2: Использовались качественные веб-данные и специализированный контент (академические тексты, Q&A, инструкции, математика). Итоговый набор Dolmino-Mix-1124 включал 843 млрд токенов.
На прошлой неделе мы выпустили Tülu 3, а теперь применили его методы к OLMo 2. Рецепты включают:
- SFT (Supervised Finetuning): на основе завершенных промптов,
- Тонкая настройка предпочтений (DPO): улучшение модели на основе пользовательских предпочтений,
- Обучение с проверяемыми наградами (RLVR): улучшение математических и логических способностей.
Модели OLMo 2-Instruct конкурентоспособны с лучшими моделями с открытыми весами. Например, OLMo 2 13B Instruct превосходит Qwen 2.5 14B, Tülu 3 8B и LLama 3.1 8B.
Ресурсы и артефакты
Демонстрация: playground.allenai.org
- Stage 1: allenai/olmo-mix-1124
- Stage 2: allenai/dolmino-mix-1124
- Tülu 3 SFT Mix: allenai/tulu-3-sft-olmo-2-mixture
- Preference data:
- For OLMo 2 7B: allenai/olmo-2-1124-7b-preference-mix
- For OLMo 2 13B: allenai/olmo-2-1124-13b-preference-mix
- RLVR mix: allenai/RLVR-GSM-MATH-IF-Mixed-Constraints
OLMo 2 HuggingFace Collectio
(Комментарий автора: OLMo 2 — это результат глубокого сотрудничества и открытого подхода к разработке ИИ. Мы надеемся, что эта модель вдохновит других исследователей и разработчиков на создание еще более мощных и доступных решений!)