OLMo 2: Лучшая полностью открытая языковая модель на сегодняшний день?

https://allenai.org/blog/olmo2

С момента выпуска первой версии OLMo в феврале 2024 года мы наблюдаем стремительное развитие экосистемы открытых языковых моделей и сокращение разрыва в производительности между открытыми и проприетарными моделями. OLMo-0424 показала заметный рост производительности по сравнению с нашей первой версией. Мы также вдохновлены увеличением участия в разработке полностью открытых моделей, в том числе такими проектами, как Amber от LLM360, Neo от M-A-P и базовые модели от DCLM. В сентябре мы выпустили OLMoE — модель со смесью экспертов, которая стала первой среди полностью открытых моделей, достигнувшей Парето-оптимального уровня производительности и размера.

Поскольку полностью открытая наука требует большего, чем просто открытые веса, мы рады представить новое обновление OLMo, включающее веса, данные, код, рецепты, промежуточные контрольные точки и модели, настроенные на инструкции, для широкой языковой исследовательской сообщества!

Анонс OLMo 2

Мы представляем OLMo 2 — новое семейство моделей с параметрами 7B и 13B, обученных на объеме данных до 5 триллионов токенов. Эти модели сопоставимы или превосходят аналогичные по размеру полностью открытые модели и конкурируют с моделями с открытыми весами, такими как Llama 3.1, по академическим английским тестам.

График: Сравнение языковых моделей по производительности (ось Y, средняя производительность по 10 тестам) и вычислительной стоимости обучения (ось X, в FLOPs). Модели OLMo 2 (отмечены звездами) демонстрируют оптимальную эффективность. OLMo-2-13B и OLMo-2-7B находятся на переднем крае производительности среди других открытых моделей, таких как DCLM, Llama 3.1, StableLM 2 и Qwen 2.5. Диапазон FLOPs: от 4×10^22 до 2×10^24. Диапазон производительности: от 35 до 70 очков.

Ключевые достижения OLMo 2

Мы достигли этих результатов благодаря инвестициям в ключевые аспекты разработки моделей и глубокому изучению часто упускаемых, но важных факторов:

Стабильность обучения
Длительные циклы обучения часто сопровождаются нестабильностями и всплесками потерь, что снижает итоговую производительность модели. В нашем техническом отчете, который скоро будет опубликован, мы расскажем о методах, которые помогли нам повысить стабильность долгосрочного обучения.
Многоэтапное обучение: улучшения на поздних стадиях
Предобучение медленное и дорогое, поэтому важно находить способы устранения недостатков модели в процессе обучения. Мы обсуждаем, как корректировка скорости обучения и применение учебных курсов на поздних этапах помогает «дополнить» способности модели, которые не были освоены ранее.
Современные методы пост-тренировки
Мы применили передовые методы пост-тренировки, разработанные для Tülu 3, к моделям OLMo 2. Попробуйте OLMo 2-Instruct-13B — нашу самую мощную модель — на платформе Ai2 playground.
Оценочная структура OLMES
Мы установили четкие цели и правила масштабирования задач для OLMo 2, разработав систему оценки (OLMES), которая включает 20 тестов для проверки ключевых способностей моделей: общих знаний, здравого смысла, математического и логического мышления.

Сравнение OLMo 2 с другими моделями

Мы сравнили OLMo 2 с рядом базовых моделей, разделенных на три категории:

Модели с открытыми весами
Выпущены только с финальной контрольной точкой, без информации о данных или рецептах обучения.
Частично открытые модели
Включают веса и большую часть данных, необходимых для воспроизведения.
Полностью открытые модели
Включают веса, данные, код и полную документацию, что делает их полностью проверяемыми.

Результаты:
OLMo 2 7B и 13B — лучшие полностью открытые модели на сегодняшний день. Они превосходят модели с открытыми весами аналогичного размера. Например, OLMo 2 7B превосходит LLama-3.1 8B, а OLMo 2 13B — Qwen 2.5 7B, несмотря на меньшие затраты FLOPs. Подробнее смотрите на графике выше.

Предобучение OLMo 2

Архитектура OLMo 2 схожа с первой версией, но имеет важные улучшения для повышения стабильности, такие как:

переход на RMSNorm,
замена абсолютных позиционных эмбеддингов на ротационные,
регуляризация Z-loss,
улучшенная инициализация.

Этапы предобучения:

Этап 1: Основная часть (90% бюджета) проводилась на наборе OLMo-Mix-1124 (3,9 трлн токенов).

OLMo 2 7B обучалась на одном проходе данных.
OLMo 2 13B — на 1,2 прохода (до 5 трлн токенов).

Этап 2: Использовались качественные веб-данные и специализированный контент (академические тексты, Q&A, инструкции, математика). Итоговый набор Dolmino-Mix-1124 включал 843 млрд токенов.

Создание OLMo 2-Instruct

На прошлой неделе мы выпустили Tülu 3, а теперь применили его методы к OLMo 2. Рецепты включают:

SFT (Supervised Finetuning): на основе завершенных промптов,
Тонкая настройка предпочтений (DPO): улучшение модели на основе пользовательских предпочтений,
Обучение с проверяемыми наградами (RLVR): улучшение математических и логических способностей.

Модели OLMo 2-Instruct конкурентоспособны с лучшими моделями с открытыми весами. Например, OLMo 2 13B Instruct превосходит Qwen 2.5 14B, Tülu 3 8B и LLama 3.1 8B.

Ресурсы и артефакты

Демонстрация: playground.allenai.org

OLMo 2 base models:

OLMo 2 instruct models:

Pretraining dataset:

Stage 1: allenai/olmo-mix-1124
Stage 2: allenai/dolmino-mix-1124

Post-training dataset:

Tülu 3 SFT Mix: allenai/tulu-3-sft-olmo-2-mixture
Preference data:

For OLMo 2 7B: allenai/olmo-2-1124-7b-preference-mix
For OLMo 2 13B: allenai/olmo-2-1124-13b-preference-mix

RLVR mix: allenai/RLVR-GSM-MATH-IF-Mixed-Constraints

OLMo 2 HuggingFace Collectio

(Комментарий автора: OLMo 2 — это результат глубокого сотрудничества и открытого подхода к разработке ИИ. Мы надеемся, что эта модель вдохновит других исследователей и разработчиков на создание еще более мощных и доступных решений!)